一、前言
癌癥是一個定義松散的術(shù)語,它是指具有獲得病理特性的細(xì)胞,這部分細(xì)胞喪失細(xì)胞周期調(diào)節(jié)、具有高的增殖率,以及喪失接觸抑制導(dǎo)致周圍組織侵襲。隨著時間的推移,癌細(xì)胞破壞所在組織的正常功能,并可能轉(zhuǎn)移到其他組織。癌基因有助于細(xì)胞轉(zhuǎn)化,而抑癌基因則阻止異常細(xì)胞增殖。
除癌基因和抑癌基因的突變外,在癌癥類型的亞組中還發(fā)現(xiàn)了導(dǎo)致癌癥發(fā)生和進(jìn)展的癌癥驅(qū)動突變。雖然這些遺傳改變是多種多樣的,但癌癥中改變的基因通常集中在一些參與腫瘤發(fā)生的分子機(jī)制上。這些通路具有廣泛的影響,涵蓋細(xì)胞周期、炎癥和細(xì)胞凋亡等。因此,它們在癌癥中發(fā)揮作用的機(jī)制是高度多樣化和分子異質(zhì)的,但它們也是相互關(guān)聯(lián)的。
先前的研究試圖利用這些預(yù)測的癌癥共同特征來訓(xùn)練計算模型,以區(qū)分腫瘤與正常樣本,或區(qū)分不同的腫瘤類型。通常,這些研究依賴于蛋白質(zhì)編碼基因表達(dá)數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)(或其他機(jī)器學(xué)習(xí)算法)相結(jié)合,將樣本分為兩個或多個類類別。這些研究表明,機(jī)器學(xué)習(xí)模型可以在一定的條件下,成功區(qū)分正常組織和腫瘤組織。
但是,這些方法一般基于功能或差異表達(dá)來預(yù)先選擇基因,或者在模型訓(xùn)練之前去除通過自動選擇識別的冗余基因,使模型無法了解有助于癌癥轉(zhuǎn)錄組特征的潛在新基因。另一方面,此類方法的應(yīng)用尚未在大型異質(zhì)組織集上進(jìn)行測試。
一篇最近發(fā)表在Genome Biology[IF:13.583]上的文章,作者利用深度神經(jīng)網(wǎng)絡(luò)的預(yù)測能力以及增強(qiáng)積分梯度 (EIG:enhanced integrated gradients)方法——一種用于深度神經(jīng)網(wǎng)絡(luò)解釋的方法,它生成歸因值(Attribution values)作為模型中每個生物輸入特征的權(quán)重或重要性的度量,來識別大量腫瘤類型的常見轉(zhuǎn)錄組特征,從而描繪一個適用于大多數(shù)實體腫瘤類型的癌癥分子譜。
二、數(shù)據(jù)和方法
1.數(shù)據(jù):來自 TCGA、GTEx 以及其他 12 個數(shù)據(jù)集的癌癥及正常樣本的RNA-seq數(shù)據(jù) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9112525/bin/13059_2022_2681_MOESM2_ESM.xlsx
三、結(jié)果
1、用蛋白質(zhì)編碼基因表達(dá)訓(xùn)練的前饋神經(jīng)網(wǎng)絡(luò)區(qū)分正常組織和癌組織
為了揭示通常定義癌癥狀態(tài)的轉(zhuǎn)錄組學(xué)特征。 對來自 GTEx 和 TCGA 的 11 對正常組織及腫瘤配對樣本進(jìn)行差異基因表達(dá)分析,然后查看失調(diào)基因中的overlap,結(jié)果表明僅有很少的蛋白質(zhì)編碼基因在六種或更多腫瘤類型中始終上調(diào)或下調(diào)[Fig.1a]。為了克服對常見癌癥轉(zhuǎn)錄組特征幼稚研究的局限性,作者試圖訓(xùn)練能夠區(qū)分正常和癌癥樣本的可解釋深度學(xué)習(xí)模型。
首先,整合一個大型RNA-Seq數(shù)據(jù)集,包含19種正常組織類型和18種腫瘤類型的13,461 個樣本,并將數(shù)據(jù)分為反映癌癥狀態(tài)的兩類:正?;蚰[瘤[Fig.1bc]。同時,使用12個較小的數(shù)據(jù)集來校正特定于數(shù)據(jù)集的偏差,這些數(shù)據(jù)集要么僅包含腫瘤樣本,要么僅包含來自同一患者的腫瘤和配對的正常樣本。作者還考慮了一個替代的方法——均值校正,例如常用的COMBAT方法,但這種方法嚴(yán)重限制了可用于模型訓(xùn)練的數(shù)據(jù)和基因集。
然后,使用來自19,657個蛋白質(zhì)編碼基因均值校正的表達(dá)數(shù)據(jù),來訓(xùn)練一個自動編碼器進(jìn)行降維;使用有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)來預(yù)測癌癥狀態(tài)。在驗證集上調(diào)整模型超參數(shù)(學(xué)習(xí)率、隱藏層、節(jié)點數(shù)、激活函數(shù)和丟失概率),并使用驗證集上性能最佳的超參數(shù)來修復(fù)模型架構(gòu)。
最后,為了確保模型不會學(xué)習(xí)特定于數(shù)據(jù)集的偏差,使用一個額外的數(shù)據(jù)集評估該模型的效能。結(jié)果表明,蛋白質(zhì)編碼基因表達(dá)模型能夠精確的預(yù)測樣本來自正常組織還是腫瘤組織[Fig.1efg]。
為了評估該模型對于其他癌癥類型的效能(訓(xùn)練集未包含該癌癥類型),從三個額外的數(shù)據(jù)集中組織了一個新的數(shù)據(jù)集(包含正常細(xì)胞和惡性血液細(xì)胞);在不進(jìn)行批次校正的情況下,評估深度學(xué)習(xí)模型表現(xiàn)。令人驚訝的是,盡管訓(xùn)練集和測試集數(shù)據(jù)之間存在顯著差異,但該模型仍舊能夠成功地將正常和癌癥樣本與血液區(qū)分開來[Fig.1h]。
另外,在相同的數(shù)據(jù)集中訓(xùn)練支持向量機(jī)和隨機(jī)森林模型,作者發(fā)現(xiàn),雖然在相同的獨立數(shù)據(jù)集上進(jìn)行測試,三個模型的效能相似。但當(dāng)將支持向量機(jī)模型和隨機(jī)森林模型用于血液數(shù)據(jù)集時,這兩個模型完全失效[Fig.1h]。這表明,與常用的機(jī)器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)模型更準(zhǔn)確、更穩(wěn)健。
2、lncRNA表達(dá)或剪接位點使用曲線足以定義癌癥狀態(tài)
其他類型的轉(zhuǎn)錄組特征,包括lncRNA表達(dá)和RNA剪接,已被用作預(yù)后標(biāo)志物或預(yù)測癌癥中的藥物應(yīng)答。同時,少量位于lncRNA基因中的突變或破壞蛋白質(zhì)編碼基因中的剪接已被證明會驅(qū)動癌癥發(fā)生。但是,目前尚不清楚lncRNA表達(dá)或RNA剪接的廣泛變化是否是癌癥發(fā)生的廣泛特征。作者嘗試使用這些轉(zhuǎn)錄組學(xué)特征來區(qū)分正常組織和腫瘤組織。
使用相同的方法訓(xùn)練lncRNA模型和剪接點連接數(shù)據(jù)模型,值得注意的是,這些模型分別實現(xiàn)了 98.57% ± 0.1% 和 98.78% ± 0.09% 的準(zhǔn)確度,具有高 AUPRC。正如蛋白質(zhì)編碼基因表達(dá)訓(xùn)練模型所觀察到的那樣,該模型在lncRNA基因表達(dá)數(shù)據(jù)上和剪接點使用訓(xùn)練模型上始終表現(xiàn)良好[Fig.1fg],這些結(jié)果進(jìn)一步支持我們的模型的穩(wěn)健性,因為它能夠識別真正的生物信號而不是混雜因素。
3、深度學(xué)習(xí)網(wǎng)絡(luò)的解釋揭示了表征癌癥狀態(tài)的新轉(zhuǎn)錄組學(xué)特征
鑒于深度學(xué)習(xí)模型的高性能,作者想知道在我們的每個模型中,哪些轉(zhuǎn)錄組學(xué)特征是最重要的,以及這些特征是否主要由已知與癌癥遺傳相關(guān)的基因組成。為此,作者使用增強(qiáng)的積分梯度(EIG)生成了稱為腫瘤樣本歸因值的特征重要性評分。
Ref:Enhanced integrated gradients: improving interpretability of deep learning models using splicing codes as a case study. Genome Biol. 2020
選擇腫瘤類型中,具有較高歸因值的蛋白質(zhì)編碼基因、lncRNA或剪接點,作為高歸因值集合;同時選擇歸因值接近于零的的特征作為參考的Neutral集合[Fig.2a]。在14種腫瘤中探究癌癥類型特異的歸因值時,作者發(fā)現(xiàn)歸因值前100的特征,在幾乎所有腫瘤樣本中都具有高的歸因值[Fig.2b]。這表明,深度學(xué)習(xí)模型不是由樣本量大的癌癥類型中的異常表達(dá)或剪接點使用驅(qū)動,而是依賴于癌癥的常見轉(zhuǎn)錄組學(xué)特征。
先前的差異分析表明,所有腫瘤類型中沒有基因以相同的方式顯著失調(diào)。與差異表達(dá)分析一致,作者發(fā)現(xiàn)給定基因的歸因值的正負(fù)不一定反映癌癥中基因表達(dá)的變化情況。也就是說,具有正歸因值的基因不一定在大多數(shù)癌癥中表達(dá)上調(diào),或,具有高負(fù)歸因值的基因不一定在大多數(shù)癌癥中表達(dá)下調(diào)。因此,該模型的解釋不是突出在許多癌癥類型中相似變化的基因或剪接改變,而是暴露出癌癥中始終偏離正常的轉(zhuǎn)錄組變異。
接下來,作者試圖評估已知癌基因或抑癌基因與該模型歸因值之間的關(guān)系。作者發(fā)現(xiàn)了一個顯著的區(qū)別——癌基因獲得正歸因,而抑癌基因獲得負(fù)歸因值[Fig.2c]。然而,相對于模型中識別的該歸因值特征,大多數(shù)癌基因或抑癌基因獲得較低的歸因值,甚至一部分歸因值接近于0。作者只觀察到一小部分高負(fù)歸因值的基因在COSMIC基因中富集[Fig.2de]。
4、表征癌癥狀態(tài)的轉(zhuǎn)錄組特征的遺傳改變頻率
接下來,作者想知道高歸因基因中以前未報告的遺傳改變是否可能推動模型強(qiáng)調(diào)的轉(zhuǎn)錄組變異。作者在TCGA樣本中證實了高歸因值基因幾乎不攜帶驅(qū)動突變[Fig.3a]。但分析表明,具有高負(fù)歸因值的基因的樣本展現(xiàn)了更高的乘客突變頻率,相比于Neutral集合來說[Fig.3b]。同時,結(jié)構(gòu)變異的頻率雖然在高歸因基因中高于其參考的Neutral集合,但在所有高歸因基因組中都低于COSMIC基因[Fig.3c]。同樣,高歸因基因受擴(kuò)增或缺失事件影響的頻率與Neutral集合或 COSMIC 基因沒有顯著差異[Fig.3de]。
總體而言,深度學(xué)習(xí)模型確定的癌癥轉(zhuǎn)錄組學(xué)特征并不經(jīng)常受到遺傳改變的影響,這表明從模型中獲得的癌癥表達(dá)和剪接模式不是由這些基因的遺傳變異驅(qū)動的。
5、定義腫瘤狀態(tài)的轉(zhuǎn)錄組學(xué)特征的高度進(jìn)化和選擇性限制
在通過表達(dá)或剪接連接使用建立了具有高歸因值的基因列表,并發(fā)現(xiàn)這些基因中的大多數(shù)與COSMIC癌基因或抑癌基因不對應(yīng)之后,作者試圖探究深度學(xué)習(xí)模型中具有高歸因值的轉(zhuǎn)錄組學(xué)特征,是否具有表明細(xì)胞中重要作用的特性。
作者發(fā)現(xiàn),和Neutral集合相比,模型中具有高歸因值的蛋白質(zhì)編碼基因,lncRNA基因和相對應(yīng)的剪接連接的基因具有高度的進(jìn)化保守性[Fig.4a]。同時,相對于參考的Neutral集合,具有高負(fù)歸因的蛋白質(zhì)編碼基因以及正歸因值負(fù)歸因值的lncRNA顯著的更長,但高歸因值的剪接連接的基因顯著的更短[Fig.4b]。具有高歸因值的蛋白質(zhì)編碼基因和剪接連接基因?qū)δ軉适蛔冋宫F(xiàn)了更高的選擇性壓力[Fig.4c]。最后通過pyknons方法,發(fā)現(xiàn)高歸因值的lncRNA基因攜帶比Neutral集合更高的pyknons密度[Fig.4d]。
6、具有高歸因值的剪接連接的表征
雖然很容易想象基因表達(dá)水平的變化如何驅(qū)動腫瘤發(fā)生,但解釋剪接變化對疾病的影響并不那么簡單。因此,作者試圖預(yù)測具有高歸因值的可變剪接連接如何影響蛋白質(zhì)序列和功能。
作者首先注意到,高歸因連接被預(yù)測會破壞基因的reading frame(閱讀框架)。先前的研究表明,替代剪接可以通過靶向無序區(qū)域來調(diào)節(jié)蛋白質(zhì)蛋白質(zhì)相互作用。因此,作者研究了與可變剪接連接上下游兩個外顯子相對應(yīng)的肽序列的預(yù)測無序性,但發(fā)現(xiàn)預(yù)測的肽無序水平在高歸因連接中與在集合中觀察到的無差異。
然后,使用NCBI保守結(jié)構(gòu)域數(shù)據(jù)庫,通過預(yù)測從高歸因連接上游和下游的兩個外顯子編碼的蛋白質(zhì)結(jié)構(gòu)域,評估高歸因剪接連接是否會影響已知的蛋白質(zhì)結(jié)構(gòu)域。有趣的是,10個基因中的11個剪接連接會影響蛋白激酶C樣超家族結(jié)構(gòu)域的一部分轉(zhuǎn)錄本匹配序列[Fig.5]。作者還發(fā)現(xiàn)了額外的高歸因剪接點,它們影響與癌癥信號傳導(dǎo)相關(guān)的其他結(jié)構(gòu)域。
7、在癌癥中具有高正歸因值或負(fù)歸因值的基因的對比功能
最后,鑒于模型中的大多數(shù)蛋白質(zhì)編碼基因或具有高歸因值的剪接點的基因以前與癌癥無關(guān),作者試圖了解這些基因的功能。首先,作者發(fā)現(xiàn),通過表達(dá)識別的具有高歸因值的基因與通過剪接點使用具有高歸因值的基因,存在很大的差異[Fig.6a]。
對具有高歸因值的蛋白質(zhì)編碼基因進(jìn)行GO分析,發(fā)現(xiàn)具有高負(fù)歸因值的蛋白質(zhì)編碼基因富含與轉(zhuǎn)錄、有絲分裂、組蛋白修飾、染色質(zhì)調(diào)節(jié)和定位到中心體相關(guān)的功能,符合傳統(tǒng)癌癥觀點。而具有高正歸因值的蛋白質(zhì)編碼基因在轉(zhuǎn)錄后和翻譯后修飾方面富集。同時,具有高歸因值的剪接連接點的基因也富含與RNA加工相關(guān)的功能。另一方面,與生物學(xué)過程(BP)相關(guān)的富集圖顯示,通過表達(dá)或剪接的高正歸因基因形成高度互連的網(wǎng)絡(luò),其核心與與 RNA 生物學(xué)相關(guān)的功能有關(guān)[Fig.6b]。與高歸因基因相關(guān)的分子和細(xì)胞功能的Ingenuity Pathway分析證實,高負(fù)歸因基因的功能與高正歸因基因的功能不同,轉(zhuǎn)錄和RNA加工在兩組中分別占據(jù)主導(dǎo)地位[Fig.6c]。
最后,基因集富集分析揭示了高負(fù)歸因值的基因富集在KRAS信號通路上,而通過表達(dá)或剪接具有高正屬性的基因沒有發(fā)現(xiàn)顯著的富集(Fig.6d)。因此,雖然在癌癥中具有高負(fù)歸因值的基因具有已知癌基因和抑癌基因的功能,包括它們?nèi)绾闻c基因組維持和轉(zhuǎn)錄有關(guān),但通過表達(dá)或剪接具有高正歸因的基因具有不同的功能,其中一些與RNA調(diào)控和RNA處理有關(guān)。
四、結(jié)論
本篇文章通過訓(xùn)練一個深度學(xué)習(xí)的前饋神經(jīng)網(wǎng)絡(luò),以使用轉(zhuǎn)錄組特征來區(qū)分正常和腫瘤樣本。同時發(fā)現(xiàn),使用lncRNA表達(dá)和剪接連接使用與使用蛋白質(zhì)編碼基因的表達(dá)數(shù)據(jù)訓(xùn)練的模型效能一致。總之,本篇文章為我們的研究提供一個新的思路,深度學(xué)習(xí)模型可以解決傳統(tǒng)方法無法解決的問題。