前列腺癌(prostate cancer, PCa)是男性高發(fā)惡性腫瘤之一。在我國,前列腺癌的發(fā)病率呈現(xiàn)逐年上升趨勢,并且發(fā)病年齡也日趨年輕化,這可能與人均壽命延長、人口老齡化以及診斷技術(shù)的提高有關(guān)。前列腺癌侵襲轉(zhuǎn)移的分子機(jī)制研究、患者預(yù)后的評估是前列腺癌防治中的重要方面。如何確定介導(dǎo)前列腺癌侵襲性表型的分子特征,目前仍然是臨床上一個主要的挑戰(zhàn)。
2021年9月22日,美國丹娜-法伯癌癥研究所的Eliezer M. Van Allen團(tuán)隊(duì)在《自然》雜志上發(fā)表了一篇文章揭示了深度神經(jīng)網(wǎng)絡(luò)在前列腺癌發(fā)現(xiàn)中的應(yīng)用。他們開發(fā)的工具P-NET是一種基于生物學(xué)信息的深度學(xué)習(xí)模型,該模型可以根據(jù)治療-耐藥狀態(tài)對前列腺癌患者進(jìn)行分層,并通過完整的模型可解釋性來評估癌癥治療中耐藥性的分子驅(qū)動因素。
經(jīng)證明,P-NET可以利用分子數(shù)據(jù)來預(yù)測癌癥狀態(tài),其性能優(yōu)于其他建模方法。此外,P-NET的生物學(xué)可解釋性揭示了已知的和新的分子改變候選基因,如MDM4和FGFR1,這些候選基因與預(yù)測晚期癌癥有關(guān),并在體外實(shí)驗(yàn)中得到驗(yàn)證。生物學(xué)上的完全可解釋的神經(jīng)網(wǎng)絡(luò)使前列腺癌的臨床前發(fā)現(xiàn)和臨床預(yù)測成為可能,并可能普遍適用于其他類型的癌癥。
那么,接下來跟隨小編來了解一下該模型的神奇之處吧。
可解釋的生物信息的深度學(xué)習(xí)
圖1.可解釋的生物學(xué)信息深度學(xué)習(xí)
P-NET是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它將不同的生物實(shí)體編碼成一種神經(jīng)網(wǎng)絡(luò)語言,并在連續(xù)層之間進(jìn)行自定義連接(即來自患者特征、基因、通路、生物過程和結(jié)果的特征)。該研究主要關(guān)注處理突變和拷貝數(shù)的改變。經(jīng)過訓(xùn)練的P-NET提供了每一層節(jié)點(diǎn)的相對排序,以告知生物學(xué)假說的生成。實(shí)線表示從輸入到生成結(jié)果的信息流,虛線表示計算不同節(jié)點(diǎn)的重要性得分的方向。驗(yàn)證候選基因,以了解其功能和作用機(jī)制。
P-NET的預(yù)測性能
圖2.P-NET預(yù)測性能
研究人員用一組包含1013例前列腺癌的樣本來訓(xùn)練和測試P-NET ,其中有333例去勢抵抗性前列腺癌(CRPC)和680例原發(fā)性癌。整個過程包括80%的訓(xùn)練,10%的驗(yàn)證和10%的檢測,使用體細(xì)胞突變和拷貝數(shù)的數(shù)據(jù)來預(yù)測疾病狀態(tài)。訓(xùn)練后的P-NET表現(xiàn)優(yōu)于典型的機(jī)器學(xué)習(xí)模型(包括線性和徑向基函數(shù)支持向量機(jī)、邏輯回歸和決策樹),P-NET模型AUC為0.93,AUPR為0.88,準(zhǔn)確率為0.83。此外,作者還評估了稀疏模型是否具有不同于密集的全連接深度學(xué)習(xí)模型的特征。在訓(xùn)練集上訓(xùn)練了一個具有與P-NET模型相同參數(shù)數(shù)量的密集模型,樣本數(shù)量從100到811個(占樣本總數(shù)的80%)。P-NET模型的平均性能(AUC值) 在所有樣本量中都高于密集模型,并且這種差異在較小樣本量(最多500個)中具有統(tǒng)計學(xué)意義(圖2c)。
接下來,研究者使用另外兩個前列腺癌驗(yàn)證隊(duì)列對模型的預(yù)測方面進(jìn)行了外部驗(yàn)證,一個原發(fā)性的,一個是轉(zhuǎn)移性的。訓(xùn)練后的P-NET模型正確分類了73%的原發(fā)腫瘤和80%的轉(zhuǎn)移性腫瘤,這表明該模型具有足夠的預(yù)測性能,可以應(yīng)用于預(yù)測未見過的樣本 (圖2b)。原發(fā)腫瘤樣本被P-NET錯誤地歸類為去勢耐藥轉(zhuǎn)移性腫瘤的患者實(shí)際上可能有更差的臨床結(jié)果。P-NET評分高的患者被誤診為耐藥的患者明顯比P-NET評分低的患者更容易發(fā)生生化復(fù)發(fā),這表明對于原發(fā)性前列腺癌患者,P-NET評分可用于預(yù)測潛在的生化復(fù)發(fā)(圖2d)。
三、檢查和解釋P-NET
為了了解有助于預(yù)測性能的不同特征、基因、通路和生物過程之間的相互作用,并研究從輸入到結(jié)果的影響路徑,研究者在訓(xùn)練后使用完全可解釋的層將P-NET的整個結(jié)構(gòu)可視化(圖3)。
圖3.檢查和解釋P-NET
P-NET內(nèi)層的可視化顯示了每層中不同節(jié)點(diǎn)的估計的相對重要性。最左邊的節(jié)點(diǎn)代表特征類型;第二層的節(jié)點(diǎn)代表基因;下一層代表更高級別的的生物實(shí)體;最后一層代表模型的結(jié)果。顏色較深的節(jié)點(diǎn)更重要,而透明節(jié)點(diǎn)代表每一層中未顯示節(jié)點(diǎn)的剩余重要性。為了評估特定基因?qū)δP皖A(yù)測的相對重要性,作者檢查了基因?qū)?,并使用Deep-LIFT歸因方法獲得了基因的總重要性得分。排名較高的基因包括AR、PTEN、RB1和TP53,這些基因是已知的與轉(zhuǎn)移性疾病相關(guān)的前列腺癌驅(qū)動因子。使用?;鶊D描述了特定數(shù)據(jù)類型對每個基因重要性的貢獻(xiàn)。例如,AR基因的重要性主要由基因擴(kuò)增驅(qū)動,TP53的重要性由突變驅(qū)動,PTEN的重要性由缺失驅(qū)動。
四、P-NET的臨床和功能評價
通過對P-NET訓(xùn)練模型的多層評估,研究者觀察到TP53相關(guān)生物學(xué)對CRPC的收斂性。追蹤TP53相關(guān)通路與基因水平的相關(guān)性,TP53和MDM2在前列腺癌進(jìn)展中的作用是已知的。研究者還觀察到MDM4的改變,這在很大程度上促進(jìn)了這種網(wǎng)絡(luò)的收斂。MDM4在前列腺癌耐藥性中的作用尚未完全確定,但它可以通過結(jié)合并掩蓋轉(zhuǎn)錄激活域抑制野生型TP53的表達(dá)。
圖4.P-NET的臨床和功能評價
接著,該團(tuán)隊(duì)研究了臨床樣本和功能模型中的MDM4譜。MDM4的高擴(kuò)增在耐藥樣本中更為普遍。圖4a顯示了AR、TP53和MDM4基因的變化。在LNCaP細(xì)胞中使用17255個開放閱讀框(ORF)進(jìn)行的全基因組功能獲得臨床前篩選中,MDM4過表達(dá)與苯扎魯胺的耐藥性顯著相關(guān)(苯扎魯胺是一種用于治療CRPC患者的第二代抗雄激素藥物)(圖4b)。然后,作者使用CRISPR-Cas9在多個前列腺癌細(xì)胞系中敲除MDM4。與陰性對照組相比,前列腺癌細(xì)胞的增殖明顯減少。這表明選擇性靶向抑制MDM4可能適用于治療晚期的TP53野生型前列腺癌患者。作者試圖研究MDM4對突變型和野生型前列腺細(xì)胞系的抑制作用。與TP53突變的細(xì)胞系相比,具有野生型TP53的前列腺癌細(xì)胞對MDM4選擇性抑制劑RO-5963(也能抑制MDM2)更敏感(圖4d)。
五、總結(jié)
總的來說,P-NET是基于生物學(xué)信息,而不是利用任意的過度參數(shù)化的架構(gòu)來進(jìn)行預(yù)測的。因此,P-NET顯著減少了學(xué)習(xí)參數(shù)的數(shù)量,從而提高了可解釋性。與包括密集網(wǎng)絡(luò)在內(nèi)的其他機(jī)器學(xué)習(xí)模型相比,P-NET中的稀疏架構(gòu)具有更好的預(yù)測性能,并可能適用于其他類似的任務(wù)。
此外,P-NET提供了一種簡單的方法來整合多個分子特征(例如,突變、拷貝數(shù)變異和融合等)進(jìn)行不同的加權(quán),以反映它們在預(yù)測最終結(jié)果中的重要性,以前需要對每個特征采用不同的統(tǒng)計方法來發(fā)現(xiàn)癌癥基因。P-NET根據(jù)患者的基因組譜準(zhǔn)確預(yù)測晚期前列腺疾病,并有能力預(yù)測潛在的生化復(fù)發(fā)。P-NET結(jié)構(gòu)的可視化使得對相關(guān)的生物學(xué)途徑和過程有了多層次的見解,這可能有助于指導(dǎo)研究人員探索有關(guān)癌癥進(jìn)展的潛在生物學(xué)過程,并將這些發(fā)現(xiàn)轉(zhuǎn)化為治療機(jī)會。具體來說,P-NET重新發(fā)現(xiàn)了與CRPC相關(guān)的已知基因,如AR、PTEN、TP53和RB1。此外,P-NET還確定了MDM4為前列腺疾病相關(guān)基因,這已通過實(shí)驗(yàn)得到驗(yàn)證,并得出使用MDM4選擇性抑制劑可以治療轉(zhuǎn)移性前列腺癌的基因組分層(TP53野生型)患者。
總之,P-NET是一種基于生物學(xué)信息的深度神經(jīng)網(wǎng)絡(luò),它準(zhǔn)確地分類了去勢抗性轉(zhuǎn)移癌和原發(fā)性前列腺癌。可視化訓(xùn)練后的模型,產(chǎn)生了前列腺癌轉(zhuǎn)移機(jī)制的新假說,并為分子分層前列腺癌患者群體的臨床轉(zhuǎn)化提供了直接的有潛力的觀點(diǎn)。生物引導(dǎo)的神經(jīng)網(wǎng)絡(luò)代表了一種通過建立機(jī)制預(yù)測模型,將癌癥生物學(xué)與機(jī)器學(xué)習(xí)相結(jié)合的新方法,為生物學(xué)發(fā)現(xiàn)提供了一個平臺,可能廣泛適用于癌癥預(yù)測和發(fā)現(xiàn)任務(wù)。
Reference:
Elmarakeby, Haitham A et al. “Biologically informed deep neural network for prostate cancer discovery.” Nature vol. 598,7880 (2021): 348-352. doi:10.1038/s41586-021-03922-4