DeepProg一種新的預(yù)測模型
今天給大家介紹一個(gè)新的預(yù)測模型,DeepProg它結(jié)合了深度學(xué)習(xí)(自動編碼器)和機(jī)器學(xué)習(xí)算法來處理多種類型的組學(xué)數(shù)據(jù)集,特別是針對生存預(yù)測。本篇文章發(fā)表在期刊: Genome Medicine在最近一年的影響因子為11.117比去年上漲了 0.442。中科院大類: 生物學(xué) 1區(qū)。中科院小類: 2區(qū) 遺傳學(xué)
研究結(jié)果
DeepProg是一個(gè)通用的混合和靈活的計(jì)算框架,基于一種或多種組學(xué)數(shù)據(jù)類型(如mRNA轉(zhuǎn)錄組學(xué)、DNA甲基化和microRNA表達(dá))來預(yù)測患者生存(圖1)。DeepProg的第一階段由使用自定義秩歸一化和自動編碼器(一種深度神經(jīng)網(wǎng)絡(luò))的降維和特征變換組成。在默認(rèn)實(shí)現(xiàn)中,自動編碼器有3層,即輸入層、隱藏層(100個(gè)節(jié)點(diǎn))和輸出層。然后對變換后的特征進(jìn)行單變量Cox-PH擬合,以便進(jìn)一步選擇與生存相關(guān)的特征子集。然后,DeepProg使用無監(jiān)督聚類方法確定生存亞群的最佳類別(標(biāo)簽)數(shù),并利用這些類別構(gòu)建基于支持向量機(jī)(SVM)的機(jī)器學(xué)習(xí)模型,以預(yù)測新患者的生存群體。為了提高效率,DeepProg的計(jì)算是完全分布式的,因?yàn)槊總€(gè)模型都可以單獨(dú)擬合。
作者應(yīng)用DeepProg分析了TCGA中32種癌癥的多組數(shù)據(jù)(RNA-Seq、miRNA-Seq和DNA甲基化)。作者在卵巢癌(OV)中只使用了RNA和MIR。幾乎所有癌癥(32例中有30例)都將K = 2(最優(yōu)的聚類數(shù)K)作為最優(yōu)生存亞組(圖2A)。利用最優(yōu)聚類數(shù),作者計(jì)算了每種癌癥不同生存亞型之間的log-rank p值,均具有統(tǒng)計(jì)學(xué)意義(log-rank p值< 0.05),且c -index(0.6-1.0)均大于隨機(jī)模型的期望值0.5。其中,32種癌癥中有23種的log-rank p值小于5e?4,突出了這些模型在區(qū)分患者生存方面的價(jià)值(圖2B)??傮w而言,RNA-Seq在預(yù)測生存方面具有最重要的隱藏特征。miRNA隱藏特征在所有癌癥中都有相似的模式,但總計(jì)數(shù)較少。
為了評估DeepProg方法,作者將上述32種癌癥的結(jié)果與相似網(wǎng)絡(luò)融合(SNF)算法得到的結(jié)果進(jìn)行了比較,SNF算法是一種集成多組學(xué)數(shù)據(jù)的最先進(jìn)的方法。以前,SNF被用來識別與其他人的生存相關(guān)的癌癥亞型。如圖2B所示,SNF的生存亞型僅在32例癌癥中有13例存活率有顯著差異(p值<0.05)??偠灾珼eepProg產(chǎn)生了更好的對數(shù)秩p值(圖2B)和C指數(shù)(圖2C)。作者還通過TCGA HCC和BRCA數(shù)據(jù)集,用簡單的PCA分解和兩種矩陣分解方法(包括MAUI和MOFA+)代替了DeepProg配置的自動編碼器步驟,在HCC中,PCA和MOFA+的c -index分別為0.60和0.59(圖3A, B),而DeepProg的c -index為0.76(圖3C)。在BRCA中,PCA和MOFA+的c指數(shù)分別為0.58和0.62(圖3D, E),而DeepProg的c指數(shù)為0.77(圖3F)。
DeepProg工作流的一個(gè)關(guān)鍵優(yōu)勢是:它能夠預(yù)測任何具有常見RNA、miRNA或DNA甲基化特征的新個(gè)體樣本的生存亞型。為了驗(yàn)證DeepProg模型的患者生存風(fēng)險(xiǎn)分層,作者將它們應(yīng)用于外部的獨(dú)立癌癥數(shù)據(jù)集,其中兩個(gè)來自肝細(xì)胞癌(HCC)隊(duì)列(圖4A,B),四個(gè)來自乳腺癌(BRCA)隊(duì)列(圖4C,F(xiàn))。作者得到的C指數(shù)為0.80,對數(shù)秩p值為1.2E?4(LIRI),C指數(shù)為0.73,對數(shù)秩p值為1.5E?5(GSE)(圖4A,B)。四個(gè)BRCA數(shù)據(jù)集的C指數(shù)為0.68-0.73,生存差異的對數(shù)秩p值均顯著(<0.05)(圖4C,F(xiàn))。因此,作者通過其他的HCC和BRCA隊(duì)列驗(yàn)證了DeepProg的可預(yù)測性。
為了識別與患者生存差異相關(guān)的關(guān)鍵特征,作者對生存最差患者子集中顯著過表達(dá)或過表達(dá)的各組學(xué)層特征進(jìn)行了全面分析。接下來,在過表達(dá)或過表達(dá)的特征中,作者從輸入數(shù)據(jù)類型中選擇Wilcoxon秩檢驗(yàn)p值小于1e?4的重要特征。對于這些特征中的每一個(gè),作者計(jì)算了每種癌癥類型的單變量Cox-PH回歸,并基于-log10 (p值)對它們進(jìn)行排名。將這些等級歸一化后,作者通過匯總所有32種癌癥類型獲得了一個(gè)泛癌癥等級。RNA-Seq分析顯示,在表現(xiàn)最差的生存組中出現(xiàn)了一些過度表達(dá)的基因模式(圖5A)。利用排序值,作者對腫瘤和基因進(jìn)行聚類,檢測到兩個(gè)清晰的基因簇,分別富含細(xì)胞周期和有絲分裂的生物學(xué)功能(adv . p值= 3e?42)和細(xì)胞外基質(zhì)組織通路(adv . p值= 6e?9)(圖5a)。此外,分析顯示了兩組不同的癌癥,其中GBM、HNSC、OV、STAD、COAD、LUSC和KIRC屬于一組,PRAD、PAAD和LUAD屬于另一組(圖5A)。研究表明,CBX7的下調(diào)在癌癥進(jìn)展中發(fā)揮了關(guān)鍵作用。同樣,EZH1抑制被證明參與了細(xì)胞增殖和癌變。此外,鋅指家族的多個(gè)基因(ZBTB7C、ZMAT1、ZNF18、ZNF540、ZNF589、ZNF554和ZNF763)均下調(diào)。ZNF基因是一個(gè)龐大的轉(zhuǎn)錄因子家族,其中許多基因在腫瘤進(jìn)展中顯示出相關(guān)性。
為了進(jìn)一步鑒定與最差存活亞型相關(guān)的RNA-Seq基因表達(dá),作者進(jìn)行了全球基因共表達(dá)分析。對于每種癌癥類型,作者從生存最差的亞型(圖5A)中選擇差異表達(dá)基因,并構(gòu)建泛癌共識共表達(dá)網(wǎng)絡(luò)。作為說明,作者使用前200個(gè)基因和最重要的相關(guān)基因(圖5B)構(gòu)建了共表達(dá)的子圖,并進(jìn)行基因群落檢測。很大一部分共表達(dá)基因與前面強(qiáng)調(diào)的生存基因重疊。此外,該網(wǎng)絡(luò)還分別揭示了淋巴和非淋巴細(xì)胞通路(第2組,Q值=6e?10)和平滑肌收縮(第3組,Q值為7e?12)兩組與免疫調(diào)節(jié)相關(guān)的基因。與簽名基因結(jié)果(圖5A)相似,基因-癌癥聚集圖在RNA共表達(dá)方面顯示CoAD和STAD之間非常相似的地方(圖5C)。為了解決患者體內(nèi)腫瘤異質(zhì)性的潛在混雜問題,作者使用XCell來分離每個(gè)患者的細(xì)胞類型。然后,作者使用Logistic回歸調(diào)整了所有細(xì)胞類型成分的基因。肝癌和癌旁組織的Kendall-Tau相關(guān)分?jǐn)?shù)分別為0.5 2(p值<1.04e?2 5)和0.5 5(p值<3.5e?15 0)。高度顯著的p值否定了這兩個(gè)DE基因排名是獨(dú)立的假設(shè)。
基于觀察到的某些癌癥之間的相似性,作者探索了這些模型是否適用于轉(zhuǎn)移學(xué)習(xí),也就是說,建立在一種特定癌癥類型上的模型可以用來預(yù)測另一種癌癥類型患者的生存。作者測試了所有32對癌癥,交替用作訓(xùn)練和測試數(shù)據(jù)集。許多癌癥模型在預(yù)測其他癌癥類型方面是有效的(圖6A)。有趣的是,根據(jù)間皮瘤(MESO)數(shù)據(jù)建立的模型顯著預(yù)測了12種其他癌癥類型的亞型,p值從0.048到4.8e?6,C指數(shù)從0.58到0.82。一般來說,生物學(xué)上更相關(guān)的癌癥類型具有更高的交叉預(yù)測準(zhǔn)確性。STAD模型顯著地預(yù)測了COAD樣本的亞型(p值=0.018,CI=0.6)(圖6B),反之亦然,對于STAD樣本的COAD模型預(yù)測(p值=5.4E?3,CI=0.66)(圖6C)。作者進(jìn)一步調(diào)查了潛在的來源。Read顯示了與STAD和CoAD相似的前100名基因表達(dá)模式;然而,在miRNA和甲基化水平上的前100名功能中則有很大不同。
本文小結(jié):DeepProg是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)方法的新集成框架,它使用多組學(xué)數(shù)據(jù)有力地預(yù)測患者的生存亞型。預(yù)計(jì)DeepProg模型可以為預(yù)測癌癥等疾病的患者生存風(fēng)險(xiǎn)提供信息。