膠質(zhì)瘤是最常見的腦部惡性腫瘤,患者的平均生存時間為18月。對患者的生存時間基于分子標(biāo)志預(yù)測,可以找出具有具有治療潛力的患者。通過匯總多個模型的預(yù)測結(jié)果,可以構(gòu)建更加具有魯棒性,范化能力更強的模型,這在機器學(xué)習(xí)中被稱為集成學(xué)習(xí)(ensemble learning),9月22日來自青島大學(xué)研究者的論文“The genetic algorithm-aided three-stage ensemble learning method identified a robust survival risk score in patients with glioma”,介紹了結(jié)合遺傳算法,集成學(xué)習(xí)的生存時間預(yù)測模型。該文將詳細(xì)介紹其算法原理。
論文鏈接:https://academic.oup.com/bib/article-abstract/23/5/bbac344/6694808?redirectedFrom=fulltext&login=false
1)如何訓(xùn)練生存率預(yù)測算法
算法的訓(xùn)練數(shù)據(jù),來自11個公開數(shù)據(jù)庫的集合,包含患者的RNA表達(dá)譜和生存時間。其中來自TCGA和CGGA693這兩個樣本量較大的數(shù)據(jù)集被用作訓(xùn)練數(shù)據(jù)集,而全部數(shù)據(jù)集(總計1191個樣本)被當(dāng)作測試數(shù)據(jù)集。
在模型訓(xùn)練的第一階段,使用TCGA數(shù)據(jù)集通過基因配對(gene-pairing)算法進(jìn)行特征提取,以避免批次效應(yīng);訓(xùn)練的第二階段,在CGGA693數(shù)據(jù)集上,通過10疊交叉驗證,在47個基礎(chǔ)預(yù)測模型(例如隨機森林,決策樹,支持向量機)上通過對參數(shù)的網(wǎng)格搜索,找出最優(yōu)的模型參數(shù)組合;而在第三階段,在TCGA數(shù)據(jù)集上,通過遺傳算法,從第二階段訓(xùn)練得出的模型中,找出最優(yōu)的三個模型,作為最終進(jìn)入集成學(xué)習(xí)框架的三個基礎(chǔ)模型。之后在所有11個來源的數(shù)據(jù)集上,對訓(xùn)練的模型進(jìn)行評價。
圖1:預(yù)測算法訓(xùn)練三階段的示意圖
具體來看每一階段的訓(xùn)練過程,根據(jù)醫(yī)學(xué)信息,選取217個關(guān)鍵基因,之后通過Cox回歸,找出203個關(guān)鍵基因,用于進(jìn)一步的特征工程。之后將剩下了的203個基因兩兩配對,形成203*202個基因?qū)Γ鶕?jù)下圖的公式,進(jìn)行配對。之后對于每個樣本,判斷配對所處的頻率所在的相對位置,選取位于20-80%的基因?qū)Γㄈコ切┰谠撆沃械谋磉_(dá)量大多是存在相關(guān)性,即A在大多數(shù)時大于或小于B的基因?qū)Γ?,以避免批次差異。?jīng)此過程選出的6300個基因?qū)Γㄟ^與生存時間做Lasso回歸,選出最終用做特征的40個基因?qū)Α?/p>
圖2:基因?qū)λ惴ㄈコ涡?yīng)的效果,a是各個基因?qū)CA降維后的結(jié)果,b與c是各個數(shù)據(jù)集上,基因組合在去批次效應(yīng)之前的降維結(jié)果,d是去除異常值之后,對剩余的基因?qū)Ρ磉_(dá)量的降維結(jié)果,可見去批次效應(yīng)之前,降維結(jié)果顯示不同批次聚在一起,去除后則相對均一。
之后的原始的預(yù)測模型訓(xùn)練,在新數(shù)據(jù)集CGGA693上利用上一階段得到的特征,在47個模型上,通過10折交叉驗證和網(wǎng)格搜索,依次尋找每個模型下的預(yù)測準(zhǔn)確性最高的參數(shù)組合。在第三階段,依舊使用同一批數(shù)據(jù),使用遺傳算法,找出采取那些模型的組合,能夠以更高的效能進(jìn)行生存時間預(yù)測。以選取那些模型組合作為基因型,以集成學(xué)習(xí)后預(yù)測誤差為表型。最初選取隨機組合的預(yù)測模型作為基因型,通過不斷的模擬進(jìn)化過程(讓模型組合經(jīng)過點突變和重組),再通過其預(yù)測準(zhǔn)確性作為適應(yīng)度,選擇下一代模型組合的“物種池”,以此找出選取那些模型組合進(jìn)行集成學(xué)習(xí)時,預(yù)測的準(zhǔn)確性最高。最后在全部數(shù)據(jù)集組成的樣本集合上,評價模型的準(zhǔn)確性。
2)如何評價生存率預(yù)測算法
預(yù)測過程中,考察了診斷后從第一年到第五年的生存率(使用ROC評價),并通過泛癌癥分析,在五種不同的癌癥下,使用訓(xùn)練的模型進(jìn)行預(yù)測。作者還提供了一個在線工具h(yuǎn)ttps://sujiezhulab.shinyapps.io/3S_score/,用戶可通過上傳數(shù)據(jù),使用訓(xùn)練好的模型進(jìn)行生存率預(yù)測,該工具可作為對膠質(zhì)瘤患者基于轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行風(fēng)險評估的易用工具。
評價時先按照生存率預(yù)測,將患者分為兩組,計算不同風(fēng)險組的Kaplan–Meier s生存時間曲線,在11個數(shù)據(jù)集中的每一個,以及組合后測試集上,可以看到兩組的生存率有顯著差異。
圖3:在不同數(shù)據(jù)集上,高風(fēng)險與低風(fēng)險組生存率曲線
之后判斷針對個體患者的1年,3年,5年的生存率預(yù)測,通過ROC曲線評價預(yù)測準(zhǔn)確性,結(jié)果見圖4.
圖4:不同數(shù)據(jù)集上,最終訓(xùn)練得出模型針對患者1,3,5年生存概率預(yù)測的ROC曲線。在所有樣本的數(shù)據(jù)集上,第一年生存率ROC為0.705, 第三年為0.825,第五年為0.839
為了說明模型預(yù)測的魯棒性,通過將樣本和標(biāo)簽置換(npermutation test),重新計算ROC,發(fā)現(xiàn)新預(yù)測的結(jié)果和之前的結(jié)果是相近的,這說明模型是學(xué)到了數(shù)據(jù)間的特征,而非僅僅記住數(shù)據(jù)標(biāo)簽。
圖6,經(jīng)過300次標(biāo)簽置換(permutation test)后,模型的預(yù)測準(zhǔn)確性差異不大
圖7。A,模型的可解釋性,將各個基因表達(dá)量對應(yīng)的風(fēng)險值。B,基于膠質(zhì)瘤訓(xùn)練的模型在其它6種癌癥上預(yù)測得出的風(fēng)險高與低兩組對應(yīng)的生存曲線存在顯著差異。
3)總結(jié)
該論文的亮點,不僅在于提供了一個簡單易用的,對膠質(zhì)瘤及其它癌癥患者基于轉(zhuǎn)錄組數(shù)據(jù)預(yù)測預(yù)后效果(生存率)的在線工具,更在于提出了一種可以借鑒的生信分析思路,即先通過搜集不同來源的公開數(shù)據(jù)集,之后通過判斷組間數(shù)據(jù)的相關(guān)性,選出不存在組間依賴的特征集合,以此去除批次效應(yīng)。之后批量訓(xùn)練各類預(yù)測模型,再通過諸如遺傳算法的組合優(yōu)化算法,找出使用那些分類器集合后的預(yù)測效果最佳。通過類似的套路,可以對各種癌癥,使用多組學(xué),多來源進(jìn)行類似的模型構(gòu)建,預(yù)期也會產(chǎn)生比單一預(yù)測模型,或基于所有基礎(chǔ)預(yù)測模型的集成學(xué)習(xí)更優(yōu)的結(jié)果。