大家好呀!今天給大家介紹一篇2021年發(fā)表在Science Advances上的文章。全基因組功能缺失篩查揭示了對癌細(xì)胞增殖十分重要的基因,稱為腫瘤依賴性。然而將腫瘤依賴性關(guān)系與癌細(xì)胞的分子組成聯(lián)系起來并進(jìn)一步與腫瘤聯(lián)系起來還是一個巨大的挑戰(zhàn)。本研究,作者提出了DeepDEP,基于深度學(xué)習(xí)模型和基因組數(shù)據(jù)可以預(yù)測癌癥依賴性。該模型對無標(biāo)簽的腫瘤基因組進(jìn)行無監(jiān)督預(yù)訓(xùn)練來改進(jìn)癌癥依賴性學(xué)習(xí)。作者使用三個獨立數(shù)據(jù)集驗證DeepDEP的性能。通過系統(tǒng)的模型解釋,作者擴展了當(dāng)前的癌癥依賴性圖譜。將DeepDEP應(yīng)用于泛癌的腫瘤基因組數(shù)據(jù)并首次構(gòu)建了具有臨床相關(guān)性的泛癌依賴性圖譜??偟膩碚f,DeepDEP作為一種新的工具可以用于研究癌癥依賴性。
Predicting and characterizing a cancer dependency map of tumors with deep learning
使用深度學(xué)習(xí)預(yù)測和描述腫瘤異型性圖譜
結(jié)果:
1.模型設(shè)計
基因依賴性或必要性是指基因?qū)?xì)胞增殖和生存的重要程度。癌細(xì)胞中的基因依賴性與遺傳環(huán)境有關(guān)。本研究,作者提出了DeepDEP,通過學(xué)習(xí)腫瘤和細(xì)胞系樣本的高維基因組數(shù)據(jù)來預(yù)測基因依賴性。DeepDEP使用轉(zhuǎn)移學(xué)習(xí)對無標(biāo)記的腫瘤樣本進(jìn)行無監(jiān)督的預(yù)訓(xùn)練,隨后對有標(biāo)記的CCL樣本進(jìn)行參數(shù)微調(diào),用于捕獲基因組學(xué)和基因依賴之間的關(guān)系(圖1A)。該模型包括以下幾個部分:1.對DNA突變,基因表達(dá),DNA甲基化和CAN數(shù)據(jù)進(jìn)行降維編碼神經(jīng)網(wǎng)絡(luò);2.構(gòu)建用于提取DepOI的編碼網(wǎng)絡(luò);3.構(gòu)建預(yù)測網(wǎng)絡(luò)用于將學(xué)習(xí)到的特征轉(zhuǎn)化為依賴性打分(圖1B)。使用自編碼器對8238個TCGA腫瘤樣本的每種組學(xué)數(shù)據(jù)進(jìn)行降維,將構(gòu)建的自編碼器的結(jié)構(gòu)和參數(shù)轉(zhuǎn)移到DeepDEP的四個相應(yīng)編碼器上,隨后對整個網(wǎng)絡(luò)進(jìn)行訓(xùn)練生成一個基因依賴的特征空間。
原始依賴性打分是CERES以接近與零的模式估計和校正的基因效應(yīng)打分圖2A)。通過SGRNA,篩選復(fù)制和CCL質(zhì)量控制計算打分,其負(fù)值越大,依賴性越強即重要性越強。作者基于高度可選依賴性或COSMIC選擇1298個癌癥中候選DepOIs,每個DepOI涉及33.2個分子特征(圖2B)。共獲得360844(278CCL*1298DepOIs)個標(biāo)記樣本。將CCLs隨機分為訓(xùn)練集/驗證集(90%)和測試集(10%)(圖2C)。訓(xùn)練集和測試集之間沒有腫瘤大小和細(xì)胞類型等的顯著差異。
2.模型性能和與其他方法比較
測試集的預(yù)測準(zhǔn)確率較高(圖2C),性能穩(wěn)定??偟膩碚f,作者的模型在1298個DepOIs中的平均DepOIs為0.18(圖2D)。隨后,作者重點關(guān)注兩個高度變異的DepOIs亞集。這些DepOIs更可能是癌癥相關(guān)基因,例如TP53是高度變量依賴性的。這兩個亞集的平均DepOI分別為0.34和0.28,TP53的DepOIs為0.62。隨后,作者將DeepDEP與六種ML方法進(jìn)行比較。與DeepDEP相比,所有ML方法在10輪抽樣中均會顯著降低DepOI的相關(guān)系數(shù)(圖2D)。
3.模型驗證
為避免模型的過擬合,作者使用下采樣和10折交叉驗證的方法驗證模型性能。作者使用三個獨立數(shù)據(jù)集驗證模型,DeepDEP的預(yù)測打分與實際打分一致(圖2E),盡管對這些數(shù)據(jù)使用了不同的篩選機制和算法,作者鑒定到了一些共有的CCLs(圖2F和2G)。
4.使用基因表達(dá)數(shù)據(jù)描述基因依賴性的模型解釋
作者構(gòu)建了僅使用一種或兩種組學(xué)數(shù)據(jù)的簡化模型,例如Mut-DeepDEP使用突變數(shù)據(jù),Mut/Exp-DeepDEP使用突變數(shù)據(jù)和表達(dá)數(shù)據(jù)。Mut/Exp-DeepDEP和Exp-DeepDEP的性能與DeepDEP的性能相當(dāng),但僅使用突變或CNA數(shù)據(jù)的模型性能較差。作者研究Exp-DeepDEP來了解單一組學(xué)模型學(xué)習(xí)的信息,即依賴性和基因表達(dá)之間的關(guān)系。其編碼層的輸出有50個神經(jīng)元,在使用CCL依賴性數(shù)據(jù)進(jìn)行最終訓(xùn)練后僅有兩個神經(jīng)元為非零值。作者人為干預(yù)這兩個神經(jīng)元并檢查預(yù)測依賴性打分的變化(圖3A)。通過解碼層重構(gòu)6016個基因的表達(dá)水平,從而解碼這兩個神經(jīng)元的表達(dá)特征(圖3B)并進(jìn)行GSEA分析。特征1與細(xì)胞增殖相關(guān)通路正相關(guān)(圖3C和3D),特征2與腫瘤發(fā)生和腫瘤微環(huán)境等過程有關(guān)。作者通過編碼器映射了278個CCLs,將每個CCL轉(zhuǎn)化為特征打分。作者鑒定到24個CCL中有20個在特征2中活性最低而在特征1中高度變化(圖3E)。作者通過組合不同的特征打分預(yù)測基因依賴性并使用等高線圖進(jìn)行可視化(圖3F)。
5.使用Mut-DeepDEP研究SE進(jìn)行模型解釋
作者使用Mut-DeepDEP預(yù)測與CCL中與誘導(dǎo)或移除基因突變有關(guān)的基因依賴性變化,或突變和基因敲除之間的SE。簡單地說,作者一次干擾一個突變,0變1表示為野生型變?yōu)橥蛔凅w(圖4A)。對CCL中的突變DepOI對,通過比較突變和未突變的DepOI的預(yù)測依賴性計算SE打分。SE打分負(fù)值表明CCL中的突變越重要??偟膩碚f,SE打分是適中的(圖4B),獨立于細(xì)胞系(圖4C)。作者分析了2個最常見的SE對,PTEN突變/CHD1刪失和BRCA1/PARP1。CCLs中PTEN/CHD1的評價SE顯著低于CHD1與其他基因突變的平均SE打分(圖4D),BRCA1/PARP1的結(jié)果類似。作者研究與KRAS突變有關(guān)的SE基因,結(jié)果表明EGFR和KRAS之間存在SE相互作用(圖4E)。
6.預(yù)測腫瘤依賴性
腫瘤和CCL之間的整體依賴性特征的相關(guān)性與CCL之間的相關(guān)性類似(圖5A)。腫瘤之間的依賴性變化是適中的,細(xì)胞周期調(diào)節(jié)因子CDND1和CDK6是選擇性最高的基因之一。
7.預(yù)測腫瘤依賴性與基因組學(xué)的相關(guān)性
上述結(jié)果與基因組表達(dá)和甲基化數(shù)據(jù)中癌癥類型的特異性形成對比(圖5B)。腫瘤的依賴性與突變負(fù)擔(dān)較高,CNA和基因表達(dá)和甲基化水平升高有關(guān)(圖5C)。接下來,作者研究基因組在基因依賴性中的作用,作者鑒定到1.6M的M-Dep,2.1M的E-Dep,1.3M的Me-Dep和1.7M的C-Dep事件(圖5D)。對于每個DepOI,作者計算這四類事件的百分比,大多數(shù)DepOI為E-Dep,M-Dep和C-Dep事件(圖5E)。
8.利用臨床和臨床前數(shù)據(jù)驗證腫瘤依賴性
作者首先研究乳腺癌,其臨床數(shù)據(jù)來自TCGA數(shù)據(jù)庫。預(yù)測的ER+對ESR1有更強的依賴性(圖6A)。作者還評價了靶向分子治療的藥物反應(yīng)數(shù)據(jù),曲妥珠單抗對ERBB2的依賴性較強(圖6B)。與22個進(jìn)展性疾病的PDXs相比,預(yù)測達(dá)到CR的PDXs對FGFR2/FGFR4的依賴性較高(圖6C)。在TCGA的微衛(wèi)星不穩(wěn)定性(MSI)易發(fā)癌中,預(yù)測MSI高的腫瘤對WRN的依賴性較強(圖6D)。
9.預(yù)測腫瘤依賴性與化療耐藥和生存相關(guān)性
作者分析BRCA與化療耐藥相關(guān)的依賴性,比較化療后達(dá)到CR和PD的患者之間的預(yù)測相關(guān)性。共有71個基因在兩組中存在顯著差異(圖7A),大多數(shù)依賴性與化療耐藥性正相關(guān),依賴性打分越負(fù),化療反應(yīng)越差。NDUFS5的依賴性最大(圖7B)?;煼磻?yīng)相關(guān)DepOIs顯著富集在線粒體和OXPHOS的GO terms上(圖7C)。隨后,作者分析不同譜系癌癥患者的基因依賴性和OS的關(guān)系,有34例DepOIs可用于8種癌癥的預(yù)后(圖7D和7E)。例如IL2的依賴性打分越負(fù),在7種癌癥中的OS較好在2種癌癥中的OS較差(圖7F)。作者的研究表明,IL的依賴性越強,UVM(圖7G),KICH,KIRP的OS越好。SMAD4是一個腫瘤抑制因子,SMAD4依賴性越強,七種癌癥的OS越好(圖7H和7I)。作者的研究表明基因依賴性打分在化療反應(yīng)和預(yù)測預(yù)后方面具有重要的臨床意義。
結(jié)論:
本研究基于深度學(xué)習(xí)和基因組多組學(xué)數(shù)據(jù)構(gòu)建DeepDEP,可以預(yù)測癌癥依賴性,構(gòu)建癌癥依賴性圖譜。作者使用三個額外數(shù)據(jù)驗證DeepDEP的性能。此外,作者全面分析了基因依賴性與基因組學(xué)和臨床特征的相關(guān)性。
參考文獻(xiàn):
Chiu Y C, Zheng S, Wang L J, et al. Predicting and characterizing a cancer dependency map of tumors with deep learning[J]. Science Advances, 2021, 7(34): eabh1275.