隨著對衰老研究的深入,已發(fā)現(xiàn)表觀遺傳時鐘是一種工具,可以幫助研究人員更好地理解和衡量衰老過程?;趲讉€甲基化位點,就可以預測實際年齡。近日npj aging發(fā)表的論文“A pan-tissue DNA-methylation epigenetic clock based on deep learning”的論文,整合了來自7個人體器官,總計142個公開數(shù)據(jù)集后,通過深度神經(jīng)網(wǎng)絡(luò),構(gòu)建年齡預測模型AltumAge。研究者還發(fā)現(xiàn)和年齡增長線性相關(guān)的甲基化位點以及基因通路。通過AltumAge的預測結(jié)果,在獨立數(shù)據(jù)集上,能夠更好的預測腫瘤,以及糖尿病,多發(fā)型硬化等年齡相關(guān)疾病的發(fā)病率。綜上所述,這表明了深度學習在衰老領(lǐng)域的應(yīng)用,可以提升模型的性能和可解釋性。
https://www.nature.com/articles/s41514-022-00085-y
之前基于表觀遺傳的年齡預測,使用數(shù)百個CpG位點,通過線性回歸計算。然而這無法捕捉CpG位點中的非線性關(guān)系。考慮到表觀調(diào)控的復雜性,以及不同器官間的差異,AltumAge采用Illumina及EPIC芯片的數(shù)據(jù),選取20,318個甲基化位點,使用多層感知機,構(gòu)建跨組織的年齡預測模型。
圖1:AltumAge甲基化年齡預測模型的訓練過程
模型訓練完成,可以通過去除位點的方式,可以評價單個CpG位點對于甲基化年齡預測的貢獻度(圖1.b),找出和年齡呈線性相關(guān)的位點。還可以計算不同基因上的位點之間的相互關(guān)系,例如圖2中的兩個點,當基因B上的CpG位點過甲基化之后,基因C上的位點的甲基化程度將不會對AltumAge的預測有影響;而圖2右圖描述的是兩個相關(guān)的甲基化位點,即基因C在基因B上的CpG位點過甲基化之后,依然和AltumAge預測的年齡成線性關(guān)系。據(jù)此,可以找出與衰老相關(guān)的甲基化互作和通路。
圖2,基于sharply值模型解釋度示意圖
在訓練階段,對模型準確性的驗證通過去除單一樣本驗證的方式進行,對比線性模型ElasticNet和AltumAge,發(fā)現(xiàn)深度學習模型的預測誤差更低。雖然 AltumAge 在 ElasticNet 上的性能改善并不顯著,但是在老年人和新的組織類型中表現(xiàn)更好。
圖3,AltumAge模型和Elastc Net模型的預測誤差對比
不僅深度學習的模型預測更加準確,且該模型在數(shù)據(jù)中包含噪音時,其預測誤差相比線性模型更低,這說明對于真實中包含測序錯誤和批次差異的數(shù)據(jù),深度學習模型的效果會更好。
圖4,在訓練數(shù)據(jù)增加不同大小的隨機高斯噪音后,不同模型預測年及年齡平方均方差
深度學習模型已經(jīng)在一些生物學任務(wù)中顯示出了前景,因為它們在非結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)很好。多年來,它們一直被視為“黑箱”模型,但新的解釋方法使它們有可能獲得有趣的見解。通過將找到的和年齡相關(guān)的甲基化位點按對預測重要性排序,發(fā)現(xiàn)這些位點大多位于已發(fā)現(xiàn)的和年齡密切相關(guān)的通路,如 SIRT, mTOR和AMPK上,此外,通過KEGGMapper,新發(fā)現(xiàn)預測模型用到的甲基化位點位于與衰老無關(guān)的基因,例如NHLRC1與蛋白水解有關(guān),KLF14和二型糖尿病有關(guān),BCO1和生長因子的代謝有關(guān),以及和癌癥和神經(jīng)退行性疾病有關(guān)的FZD9基因。鑒于表觀遺傳學研究的最新進展,找到這些 DNA 甲基化位點來延緩或逆轉(zhuǎn)衰老可能是未來干預治療該疾病的必要手段。
更有趣的發(fā)現(xiàn),來自甲基化位點互作和年齡之間的關(guān)系上。下圖展示了三種可能的位點之間的兩兩互作,圖a和圖b描述的年齡相關(guān)的甲基化位點,其相互之間是獨立的,因此圖5 a中兩個位點的sharply值幾乎位點對角線上,當cg22736354分別處于過甲基化和降甲基化時,對年齡影響最大的前一千個甲基化位點(例如cg04084157)和預測年齡的sharply值也相近,即cg04084157不受cg22736354的影響。
圖5d的圖描述的情況,是cg10523019 甲基化的情況對年齡的貢獻,受到其它位點的影響,例如在當cg19722847過甲基化時,對預測年齡的貢獻只有在cg19722847降甲基化時的一半。這說明cg10523019的甲基化情況與年齡的關(guān)系,和其它基因上位點有關(guān)。
而圖5f,則指出其它甲基化位點的甲基化情況將會導致甲基化和年齡之間的非線性關(guān)系,例如cg19722847處于過甲基化時,cg12373771 甲基化和年齡的關(guān)系呈線性,而當cg19722847降甲基化時,會使cg12373771和年齡呈非線性關(guān)系。對此的生物學解釋是位于 ipo8基因內(nèi)的 cg19722847可以調(diào)節(jié)位于 rhbdd1的 cg10523019的甲基化過程,這說明了表觀遺傳和衰老的關(guān)系,超越了單位點的線性關(guān)系,需要通過深度學習模型,整合非線性的互作。而AltumAge 與其他深度學習推理方法相結(jié)合,可以提供呈現(xiàn)高度相互作用的 CpG位點列表,鑒于表觀遺傳編輯干預在基因組中的位置,由于染色質(zhì)結(jié)構(gòu)的原因,可能很難確定干預的主要位點。而了解次要 CpG 位點如何影響 CpG 的興趣與年齡相互作用可以指導這些干預措施。
圖5:三種甲基化位點間相互關(guān)系的示意圖
之后研究者為了論證AltumAge預測的表觀生物學年齡的生物學意義,在獨立的(沒有用于模型訓練)疾病數(shù)據(jù)集上(包括癌癥和多種和年齡相關(guān)的疾?。┥希瑢Ρ炔』己徒】等说谋碛^生物學年齡,發(fā)現(xiàn)大部分健康對照組和疾病組之間有顯著的年齡差異,見圖6。腫瘤的年齡加速可以被認為是細胞進一步偏離了Waddington’s 的原始狀態(tài)導致的。這些結(jié)果說明了甲基化年齡對疾病預測可能會有幫助。
圖6 年齡相關(guān)的疾病和不同部位的癌癥數(shù)據(jù)集,使用AltumAge模型預測的表觀生物學年齡對比
除了疾病上的應(yīng)用,在多能干細胞和胚胎干細胞傳代數(shù)的傳代數(shù)和表觀年齡之間,存在相關(guān)性。圖7對比了AltumAge和Novath模型預測的年齡與傳代數(shù)之間的關(guān)系,可以看到AltumAge模型預測的年齡相關(guān)性更強。說明AltumAge模型能夠更好地捕捉與衰老相關(guān)的生物學過程。
圖7 AltumAge和Hovarh'模型預測年齡和多能干細胞和胚胎干細胞傳代數(shù)的傳代數(shù)之間的散點圖
在衰老領(lǐng)域,深度學習的另一個有趣的應(yīng)用是直接預測死亡率的表觀遺傳時鐘的關(guān)系。目前,最先進的死亡率預測器是基于線性 Cox 比例風險模型創(chuàng)建的 GrimAge,預計使用神經(jīng)網(wǎng)絡(luò),包含非線性關(guān)系和 cpg 相互作用的模型,將導致更好的壽命預測。
總結(jié)來看,相比之前使用甲基化預測年齡的工具,AltumAge使用的信息更多,模型更復雜,預測更準確,且具有可解釋性。使用AltumAge得出的預測,對癌癥及年齡相關(guān)的疾病有預測效力,之后預期可使用類似的深度學習工具,在更多可用數(shù)據(jù)的加持下變得更加準確,不僅用于研究,還可以針對健康人提供基因檢測,甚至進行法醫(yī)檢測,判定嫌犯年齡。