8+基于DNA復(fù)制壓力構(gòu)建機(jī)器學(xué)習(xí)預(yù)測(cè)模型思路分享
如何利用多種機(jī)器學(xué)習(xí)算法建立預(yù)測(cè)模型,這篇8+文章告訴你!
新鮮出爐:建立機(jī)器學(xué)習(xí)模型探索DNA復(fù)制壓力對(duì)于前列腺癌患者預(yù)后和治療的影響
2020年,前列腺癌是第二大常見(jiàn)的癌癥,也是癌癥死亡的第五大原因。由于前列腺癌存在相當(dāng)大的異質(zhì)性,其治療方式必須考慮到患者基因組和臨床差異,從而進(jìn)一步確定個(gè)性化治療方案。
然而,目前的證據(jù)表明,臨床特征和現(xiàn)有的檢測(cè)如Gleason評(píng)分、血清前列腺特異性抗原(PSA)和BRCA1/2突變不足以預(yù)測(cè)前列腺癌的進(jìn)展或指導(dǎo)治療方案。因此,前列腺癌患者有很大的風(fēng)險(xiǎn)被過(guò)度治療或治療不足。復(fù)制壓力(DNA replication stress)是DNA復(fù)制過(guò)程中的障礙, 可以減慢或者停止復(fù)制叉的行進(jìn)過(guò)程。這些壓力主要來(lái)自DNA復(fù)制機(jī)制自身缺陷,變異細(xì)胞 (腫瘤) 中基因組復(fù)制的高度需求和外部壓力包括高溫或藥物處理等。長(zhǎng)遠(yuǎn)來(lái)看,可促進(jìn)腫瘤的發(fā)生和發(fā)展。
DNA復(fù)制壓力個(gè)性化服務(wù)
掃碼咨詢
今年1月份,發(fā)表在Journal?of?Translational?Medicine(IF:8.44)雜志上的一篇文章,利用多種機(jī)器學(xué)習(xí)算法,建立了一個(gè)穩(wěn)定而強(qiáng)大的預(yù)測(cè)原發(fā)性前列腺癌復(fù)發(fā)和治療反應(yīng)的模型。為前列腺癌風(fēng)險(xiǎn)分層和治療指導(dǎo)提供了希望。
A machine learning framework develops a DNA replication stress model for predicting clinical outcomes and therapeutic vulnerability in primary prostate cancer
下面和小編一起看看它的具體研究?jī)?nèi)容吧~
一、研究概述
1、在TCGA-PRAD數(shù)據(jù)集中進(jìn)行特征篩選和機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試
2、建立復(fù)制壓力signature(RSS)并在4個(gè)獨(dú)立外部隊(duì)列中驗(yàn)證
3、識(shí)別篩選潛在的治療靶點(diǎn)和藥物
圖1 本研究工作概述
二、TCGA-PRAD中DNA復(fù)制壓力相關(guān)特征的鑒定
1、單因素cox分析TCGA-PRAD數(shù)據(jù)集,確定了198個(gè)與前列腺癌復(fù)發(fā)顯著相關(guān)的基因
2、Bootstrap方法進(jìn)一步從198個(gè)預(yù)后基因中選擇了136個(gè),這些基因?qū)颖局夭蓸泳哂恤敯粜?,并且在?yàn)證數(shù)據(jù)集中也被識(shí)別出來(lái)
3、采用Boruta算法,將上述選擇的基因縮小到47個(gè),這些基因被證實(shí)與復(fù)發(fā)更相關(guān)。按照重要程度對(duì)其排序,排名前5位的基因包括EMD、HJURP、PLK1、TROAP和CENPK(圖2A)
圖2 利用機(jī)器學(xué)習(xí)開(kāi)發(fā)RSS
A Boruta算法識(shí)別出47個(gè)與前列腺癌復(fù)發(fā)相關(guān)的復(fù)制壓力相關(guān)基因;
B 箱線圖展示7種與生存相關(guān)的機(jī)器學(xué)習(xí)算法的C-index值;
C 箱線圖展示7種與生存相關(guān)的機(jī)器學(xué)習(xí)算法的integrated brier score (IBS) ;
D 機(jī)器學(xué)習(xí)算法在1-、3-、5-和10年的AUC值比較;
E 條形展示TCGA-PRAD隊(duì)列中納入的前列腺癌復(fù)發(fā)基因?qū)GBoost模型的貢獻(xiàn);
三、DNA復(fù)制壓力signature的構(gòu)建
1、使用Boruta算法選擇的特征,作者對(duì)7種與生存相關(guān)的機(jī)器學(xué)習(xí)算法(包括Enet、lasso、Ridge、XGBoost、plsRcox、SuperPC和CoxBoost)進(jìn)行了基準(zhǔn)測(cè)試,以篩選具有最佳精度和過(guò)擬合風(fēng)險(xiǎn)較低的超參數(shù)調(diào)優(yōu)模型
2、結(jié)果顯示,XGBoost生存模型表現(xiàn)最佳,平均C-index值最高(0.725),平均IBS最低(0.156),平均AUC值最高(1年:0.807;3年:0.746;5年:0.703;10年:0.742)。然后將具有調(diào)優(yōu)超參數(shù)的XGBoost模型擬合到整個(gè)TCGA-PRAD數(shù)據(jù)集,并稱為RSS(圖2B-D)
3、圖2E顯示了推斷出的特征對(duì)RSS的貢獻(xiàn),前5個(gè)特征包括EMD、CCNE2、PTTG1、TROAP和TK1
四、DNA復(fù)制壓力signature的評(píng)估
1、作者使用1、3、5年AUC和C-index值來(lái)探討TCGA-PRAD訓(xùn)練隊(duì)列和4個(gè)外部驗(yàn)證隊(duì)列中RSS的預(yù)后價(jià)值。TCGA-PRAD 數(shù)據(jù)集1年、3年、5年AUC值分別為0.869、0.890、0.864,DKFZ-PRAD數(shù)據(jù)集AUC值分別為0.748、0.732、0.695,GSE70768隊(duì)列AUC值分別為0.832、0.658、0.636,GSE70769隊(duì)列AUC值分別為0.740、0.689、0.677,GSE94767隊(duì)列AUC值分別為0.701、0.712、0.659(圖3A - E)。TCGA-PRAD數(shù)據(jù)集的C-index值為0.851,DKFZ-PRAD數(shù)據(jù)集為0.700,GSE70768隊(duì)列為0.724,GSE70769數(shù)據(jù)集為0.654,GSE94767數(shù)據(jù)集為0.670??傮w而言,RSS在驗(yàn)證數(shù)據(jù)集上顯示出強(qiáng)大的預(yù)測(cè)能力
2、單變量和多變量Cox回歸分析,結(jié)果顯示,在所有數(shù)據(jù)集中,RSS作為一個(gè)連續(xù)變量與較短的復(fù)發(fā)時(shí)間顯著相關(guān),因此被認(rèn)為是前列腺癌復(fù)發(fā)的獨(dú)立危險(xiǎn)因素(圖3F)
3、cutoff值為0.536時(shí),能夠?qū)⑺袛?shù)據(jù)集患者分為高危組和低危組,Kaplan-Meier分析顯示所有數(shù)據(jù)集的復(fù)發(fā)時(shí)間差異顯著(圖3G-K)
圖3 多個(gè)隊(duì)列中DNA復(fù)制壓力signature(RSS)的評(píng)估
五、RSS與臨床變量及已發(fā)表signature的比較
1、由于臨床變量如Gleason評(píng)分、血清PSA和TNM分期通常用于指導(dǎo)前列腺癌的管理和預(yù)測(cè)預(yù)后,作者采用C-index值將其與RSS進(jìn)行了比較??傮w而言,在TCGA-PRAD和GSE70768數(shù)據(jù)集中,RSS顯示出比大多數(shù)臨床特征更好的預(yù)測(cè)準(zhǔn)確性,在DKFZ-PRAD、GSE70769和GSE94767數(shù)據(jù)集中,RSS的預(yù)測(cè)能力也不差(圖4A-E)
2、作者還將RSS與已發(fā)表的signature進(jìn)行了比較,發(fā)現(xiàn)RSS與TCGA-PRAD隊(duì)列中的其他signature相比具有更高的風(fēng)險(xiǎn)比、C-index和AUC值(圖4F-J)
圖4 復(fù)制壓力signature(RSS)的預(yù)測(cè)性能與臨床特征和已發(fā)表預(yù)后signature進(jìn)行比較
A TCGA-PRAD、B DKFZ-PRAD、C GSE70768、D GSE70769、E GSE94767數(shù)據(jù)集中RSS與臨床特征的C-index值比較;
F 5個(gè)前列腺癌隊(duì)列預(yù)后signature的單因素Cox回歸分析;
G 在隊(duì)列中RSS和其他預(yù)后signature之間的C-index值比較;
H、I、J 比較TCGA-PRAD數(shù)據(jù)集中1 -、3-和5年預(yù)后signature之間的接受者工作特征曲線(AUC)下的時(shí)間依賴區(qū)域;
六、TCGA-PRAD中RSS-high組和RSS-low組的多組學(xué)分析
1、作者使用GISTIC2.0分析發(fā)現(xiàn),RSS-high組比RSS-low組有更多的重復(fù)拷貝數(shù)改變(圖5A-D)
2、RSS-high組的患者TP53、PTEN、RB1等基因缺失較多,MYC和CCND1基因在RSS-high組中擴(kuò)增(圖5E)
3、此外,作者比較了RSS-high組和RSS-low組之間常見(jiàn)的體細(xì)胞突變,發(fā)現(xiàn)RSS-high組的TP53突變頻率(18.6%)高于RSS-low組(6.2%)(圖5F)
RSS-high組的非整倍體評(píng)分、腫瘤突變負(fù)擔(dān)、腫瘤新抗原負(fù)擔(dān)均顯著高于RSS-low組(圖5G-I)
圖5 RSS-high組和RSS-low組的多組學(xué)特征
RSS-high組檢測(cè)到重復(fù)拷貝數(shù)擴(kuò)增區(qū)(A)和缺失區(qū)(B);
RSS-low組檢測(cè)到重復(fù)拷貝數(shù)擴(kuò)增區(qū)(A)和缺失區(qū)(D);
E 受重復(fù)拷貝數(shù)改變影響的基因;
F 常見(jiàn)體細(xì)胞突變;
TCGA-PRAD數(shù)據(jù)集中RSS-high和RSS-low組患者的G非整倍體評(píng)分、H腫瘤突變負(fù)擔(dān)和I腫瘤新抗原負(fù)擔(dān)的分布;
七、RSS與臨床特征和生物學(xué)過(guò)程的聯(lián)系
1、作者比較了所有隊(duì)列中RSS-high組和RSS-low組的臨床特征,并使用ssGSEA研究了RSS對(duì)生物通路的影響。結(jié)果發(fā)現(xiàn),RSS-high組細(xì)胞周期相關(guān)通路如有絲分裂軸、E2F靶點(diǎn)、G2M檢查點(diǎn)、MYC靶點(diǎn)、DNA復(fù)制和DNA修復(fù)相關(guān)通路如堿基切除修復(fù)、核苷酸切除修復(fù)、錯(cuò)配修復(fù),以及幾種癌癥相關(guān)通路如WNT/ β -catenin信號(hào)通路、Notch信號(hào)通路和血管生成顯著富集(均p<0.05)。RSS-low組與雄激素反應(yīng)和凋亡顯著相關(guān)(圖6)
2、RSS-low組的特點(diǎn)是脂肪酸代謝、類固醇生物合成和氨基酸代謝等代謝相關(guān)途徑被顯著激活,而在RSS-high組中只有氧化磷酸化和嘧啶代謝等幾種代謝途徑被富集(圖6)
總之,RSS-high組具有高度的增殖性和侵襲性,而RSS-low組具有升高的雄激素反應(yīng)和代謝活性
圖6臨床病理和生物學(xué)特征與復(fù)制壓力signature的關(guān)聯(lián)
八、RSS與免疫微環(huán)境的關(guān)系
1、據(jù)報(bào)道,復(fù)制壓力可激活促炎反應(yīng)并改變腫瘤微環(huán)境。因此,作者利用CIBERSORT來(lái)量化905個(gè)前列腺癌樣本中的免疫細(xì)胞浸潤(rùn)水平,并研究了RSS與免疫浸潤(rùn)之間的關(guān)系。結(jié)果顯示,與RSS-low組相比,RSS-high組的CD8 + T細(xì)胞、調(diào)節(jié)性T細(xì)胞和M2巨噬細(xì)胞比例增加(圖7 A)。RSS與CD8 T細(xì)胞、調(diào)節(jié)性T細(xì)胞、M2巨噬細(xì)胞比例呈正相關(guān)(圖7B-D)
2、RSS-high組的免疫抑制標(biāo)志物如FOXP3、HAVCR2、LAG3、PDCD1和ARG1的表達(dá)顯著升高(圖7E)
3、然后作者計(jì)算了IMvigor210隊(duì)列的RSS評(píng)分,發(fā)現(xiàn)阿替利珠單抗(atezolizumab)應(yīng)答者的RSS評(píng)分明顯高于非應(yīng)答者(圖7F),作者還使用閾值0.536將隊(duì)列分為RSS-high組和RSS-low組,發(fā)現(xiàn)RSS-high組的應(yīng)答者明顯更多(圖7G)
圖7 元隊(duì)列中復(fù)制壓力signature與免疫細(xì)胞浸潤(rùn)之間的關(guān)系
A CIBERSOR分析結(jié)果
B RSS和CD8 + T細(xì)胞之間的散點(diǎn)圖
C RSS和調(diào)控T細(xì)胞之間的散點(diǎn)圖
D RSS和M2巨噬細(xì)胞之間的散點(diǎn)圖
E RSS-high組和RSS-low組免疫相關(guān)基因的表達(dá)
F 阿替利珠單抗應(yīng)答者和無(wú)應(yīng)答者間RSS分布
G RSS-high組和RSS-low組間應(yīng)答者和無(wú)應(yīng)答者的百分比
九、RSS-high組患者的潛在靶點(diǎn)和藥物識(shí)別
1、為了確定RSS-high組患者的潛在靶點(diǎn),作者首先在TCGA-PRAD和DKFZ-PRAD隊(duì)列中進(jìn)行了RSS和druggable gene mRNA表達(dá)之間的Spearman秩相關(guān)分析。并將兩個(gè)隊(duì)列中正相關(guān)基因的共同子集視為RSS相關(guān)靶點(diǎn)(圖8A、B)
2、此外,作者利用CERES評(píng)分來(lái)衡量7個(gè)前列腺癌細(xì)胞系中RSS相關(guān)靶點(diǎn)的重要性,并縮小到13個(gè)潛在治療靶點(diǎn)(CERES評(píng)分大多< -1)。作者發(fā)現(xiàn)許多治療靶點(diǎn)如TOP2A、CDK9、CHEK1、RRM2和AURKB與細(xì)胞周期過(guò)程緊密相關(guān)(圖8C)
3、接下來(lái),作者進(jìn)行CMap分析,以推斷潛在有效的化合物。在5個(gè)前列腺癌隊(duì)列中進(jìn)行了差異基因分析,并采用隨機(jī)效應(yīng)模型進(jìn)行meta分析,以形成差異表達(dá)基因的共識(shí)列表。然后將150個(gè)上調(diào)最多的基因和150個(gè)下調(diào)最多的基因作為RSS簽名來(lái)預(yù)測(cè)每種化合物的CMap評(píng)分。通過(guò)這種方法,作者共鑒定出84種CMap評(píng)分低于- 95并具有反向RSS簽名能力的化合物(圖8D)
4、在84個(gè)化合物中,拓?fù)洚悩?gòu)酶抑制劑和CDK抑制劑分別占11.9%和7.1%。為了提高CMap推斷的可信度,使用prism衍生的藥物反應(yīng)數(shù)據(jù)來(lái)推斷CMap選擇的化合物的AUC值。作者發(fā)現(xiàn)2種拓?fù)洚悩?gòu)酶抑制劑,包括伊立替康和拓?fù)涮婵?,在TCGA-PRAD和DKFZ-PRAD隊(duì)列中均在RSS-high組中顯示較低的AUC值(圖8E、F),表明拓?fù)洚悩?gòu)酶是潛在的靶點(diǎn)之一
5、此外,作者還研究了RSS是否可以預(yù)測(cè)傳統(tǒng)前列腺癌治療的治療反應(yīng)。如圖8G、H所示,RSS-high組別的患者對(duì)紫杉醇類化療(包括多西他賽和紫杉醇)和PARP抑制劑(包括奧拉帕尼和他唑帕尼)更敏感。相比之下,RSS-low組別的患者對(duì)ADT如阿比特龍更敏感
圖8 確定RSS-high患者的潛在治療靶點(diǎn)和藥物
A TCGA-PRAD和B DKFZ-PRAD數(shù)據(jù)集中RSS與druggable gene mRNA表達(dá)之間的Spearman秩相關(guān)分析得出的相關(guān)系數(shù)點(diǎn)圖;
C 前列腺癌細(xì)胞系中鑒定靶點(diǎn)的CERES評(píng)分分布;
D 通過(guò)CMap分析選擇化合物的組成,只顯示前10個(gè)藥品類別;
比較TCGA-PRAD(E)和 DKFZ-PRAD(F)數(shù)據(jù)集中RSS-high和RSS-low組別患者伊立替康和拓?fù)涮婵档耐茢郃UC值;
比較TCGA-PRAD(G)和DKFZ-PRAD(H)數(shù)據(jù)集中RSS-high和RSS-low組別患者中ADT、紫杉烷和PARP抑制劑的AUC值;
十、敲除FEN1和RFC5抑制細(xì)胞生長(zhǎng)
1、作者選擇FEN1和RFC5進(jìn)行實(shí)驗(yàn)驗(yàn)證,因?yàn)樗鼈冊(cè)趶?fù)發(fā)性前列腺癌中表達(dá)較高,而在前列腺癌中很少被研究。在C4-2B和PC-3細(xì)胞中證實(shí)了FEN1和RFC5在mRNA和蛋白水平上的成功敲除(圖9A、B)。
2、然后,作者對(duì)轉(zhuǎn)染C4-2B和PC-3細(xì)胞進(jìn)行CCK-8和集落形成檢測(cè),結(jié)果顯示FEN1和RFC5的下調(diào)顯著抑制細(xì)胞生長(zhǎng)(圖9C、D)。
3、AV和PI染色評(píng)估轉(zhuǎn)染后凋亡細(xì)胞的百分比。結(jié)果顯示,敲除FEN1和RFC5后C4-2B和PC-3細(xì)胞凋亡率升高(圖9E)。
綜上所述,F(xiàn)EN1和RFC5可以通過(guò)促進(jìn)細(xì)胞生長(zhǎng)來(lái)促進(jìn)前列腺癌的進(jìn)展。
圖9 敲除FEN1和RFC5抑制細(xì)胞生長(zhǎng),促進(jìn)細(xì)胞凋亡
通過(guò)real-time qPCR(A)和B Western blot(B)檢測(cè),C4-2B和PC-3中FEN1和RFC的表達(dá)水平通過(guò)siRNA敲低而降低;
通過(guò)CCK-8(C)和菌落形成(D)實(shí)驗(yàn),比較C4-2B和PC-3中對(duì)照組、FEN1和RFC5敲除組的細(xì)胞生長(zhǎng)情況;
E流式細(xì)胞術(shù)檢測(cè)對(duì)照組、FEN1組和RFC5敲低組細(xì)胞凋亡;
DNA復(fù)制壓力是基因組不穩(wěn)定性的主要驅(qū)動(dòng)因素。這項(xiàng)研究建立了一個(gè)新穎而可靠的RSS,可以反映前列腺癌的復(fù)制壓力水平并預(yù)測(cè)預(yù)后和治療反應(yīng)。機(jī)器學(xué)習(xí)方法越來(lái)越多地用于預(yù)測(cè)患者的生存。然而,如何成功地將這些技術(shù)應(yīng)用于臨床實(shí)踐仍然是一個(gè)挑戰(zhàn)。除了前列腺癌之外的癌型,同樣可以采用機(jī)器學(xué)習(xí)的方法來(lái)分析建立預(yù)測(cè)模型,為臨床定制個(gè)性化治療方案提供可靠的參考!
DNA復(fù)制壓力個(gè)性化服務(wù)
掃碼咨詢