好久不見,分外想念!機器學習作為一個讓人又愛又恨的領域?qū)Υ蠹矣兄煌瑢こ5奈Γ瑦凼且驗闄C器學習可以從大量的數(shù)據(jù)中挖掘其中蘊含的規(guī)律,恨是因為其中涉及到各種復雜的原理讓人頭痛!今天小編就帶大家一起閱讀一篇2022年9月22日發(fā)表在BRIEFINGS IN BIOINFORMATICS(IF:13.994)的機器學習相關文章吧!看看作者是如何使用機器學習算法挖掘預后和免疫治療相關特征!
Machine learning-based tumor-infiltrating immune cell-associated lncRNAs for predicting prognosis and immunotherapy response in patients with glioblastoma
基于機器學習的腫瘤浸潤免疫細胞相關lncRNAs預測膠質(zhì)母細胞瘤患者的預后和免疫治療反應
研究背景
長期以來,lncRNAs與腫瘤免疫調(diào)節(jié)有關。然而,免疫細胞特異性lncRNAs在膠質(zhì)母細胞瘤(GBM)中的作用尚不清楚。 本研究采用6種機器學習算法,綜合分析純化的免疫細胞、GBM細胞株和GBM組織的轉(zhuǎn)錄組數(shù)據(jù),構建了一個新的計算框架,用于篩選腫瘤浸潤免疫細胞相關的lncRNAs(TIICLNC)以開發(fā)TIICLNC signature。 結(jié)果表明,TIICLNC signature可以在四個獨立的數(shù)據(jù)集中區(qū)分GBM患者的生存結(jié)果,更重要的是,在膠質(zhì)瘤中顯示出優(yōu)于95個先前建立的signature集的性能。 TIICLNCsignature可作為免疫細胞浸潤水平的指標,并可預測免疫治療的療效。 在湘雅實驗室數(shù)據(jù)集上驗證了TIICLNC signature與CD8、PD-1和PD-L1的正相關關系。 作為一個新發(fā)現(xiàn)的預測性生物標志物,TIICLNC signature能更精確地篩選從免疫治療中受益的GBM人群,并應在不久的將來得到驗證和應用。
主要結(jié)果
TIIClncRNAs的鑒定
為了全面評價免疫細胞相關的lncRNA,從16個數(shù)據(jù)集(GSE13906, GSE23371,GSE25320, GSE27291, GSE27838, GSE28490, GSE28698, GSE28726,GSE37750, GSE39889, GSE42058, GSE49910, GSE51540, GSE59237,GSE6863 、GSE8059)中篩選出由19種免疫細胞類型組成的純化細胞系(圖1)。 在每種免疫細胞中的表達水平排名前15%的LncRNAs有546個,這些LncRNAs被認為是候選的免疫相關LncRNAs。 隨后,計算候選免疫的lncRNAs的TSI得分,以識別在不同免疫細胞類型中普遍表達的hklncRNAs(在所有免疫細胞中高表達的lncRNAs)。TSI得分較低的lncRNAs在所有19種免疫細胞中均高表達,表明它們在免疫中發(fā)揮重要作用。 在設定TSI<0.2的閾值后,鑒定出308個對調(diào)節(jié)細胞免疫至關重要的HKLncRNAs。 然后,從308個HKLncRNAs中鑒定出152個在免疫細胞系(上調(diào))和GBM細胞系(下調(diào))之間差異表達的HKLncRNAs,并將其視為GBM 的TIICLncRNAs。
構建TIIClnc signature
進一步應用LassoLR、Boruta、XGBoost、SVM、Random Forest和PAMR六種機器學習算法,從152個GBM的TIIClncRNAs中識別出16個最有價值的TIIClncRNAs(圖2A)。 采用單因素Cox回歸分析,篩選出對GBM患OS有預后價值的TIIClncRNAs。 在TCGA GBM數(shù)據(jù)集中識別出12個TIIClncRNAs。 最后,根據(jù)TCGA GBM數(shù)據(jù)集中所有可能的預后TIICLNCRNAs組合的估計回歸系數(shù)進行加權,構建TIICLNC signature。 基于高斯混合模型(GMM)進行分類,其中有八個聚類4095個組合(圖2B)。 在TCGA GBM數(shù)據(jù)集中最大的1年AUC由三個TIICLNCRNAs構成(圖2B)。即:
TIICLNC signature=(0.5751*LINC00894表達值)+(1.0609*LOC100506585表達值)+(1.0639*LOC100507156表達值)。
在TCGA 、CGGA、GSE108474以及湘雅隊列中,高TIILNC特征評分的GBM患者的預后更差(圖2C、E、G和H)。 TCGA一年生存的AUC為0.727(圖2D)。湘雅隊列一年生存 AUC值為0.705(圖2F)。單因素和多因素Cox回歸分析證實TIICLNC特征是TCGA GBM數(shù)據(jù)集中的一個獨立危險因素(圖2I)。
TIICLNC signature與已發(fā)表signature的預后價值比較
為了檢驗TIICLNCsignatures的預后性能,作者分析了95個signatures,包括lncRNA和mRNA,并比較了TCGA和湘雅數(shù)據(jù)集的1年AUC。 這95個特征與多種生物學特征有關,包括免疫浸潤、自噬、鐵死亡、焦亡、上皮間質(zhì)轉(zhuǎn)變、缺氧、表觀遺傳學、N6-甲基腺苷等。TIICLNC signatures比任何其他signatures擁有更好性能(圖3)。
TIICLNC signature表現(xiàn)出顯著的免疫相關特征
高TIICLNC組表現(xiàn)出較高水平的免疫浸潤細胞和免疫調(diào)節(jié)劑,與膠質(zhì)瘤亞型、IDH突變和O6-甲基鳥嘌呤-DNA甲基轉(zhuǎn)移酶甲基化無關,表明炎癥但相對免疫抑制的微環(huán)境,是免疫治療的潛在受益者(圖4A和B)。還比較了高分組和低分組之間與免疫反應性更強的微環(huán)境相關的MSI、TMB、CYT、GEP、TCR、IFN-γ和IPS的狀況。結(jié)果發(fā)現(xiàn),在高得分組中,這些特征都處于較高水平(圖4C-F)。
預測與TIIClnc signature相關的生物學機制
由于高分組免疫上調(diào),接下來探究高分組的潛在生物學機制。在TCGA和湘雅數(shù)據(jù)集上,高分組在抗原釋放、癌癥抗原呈遞、引發(fā)和激活、免疫細胞募集和浸潤、癌細胞識別和癌細胞殺傷等癌癥免疫循環(huán)中更為活躍(圖5A)。TIIClnc signature與半乳糖代謝和鞘脂代謝等多種代謝通路呈正相關(圖5B)。此外,TIIClnc signature與多種免疫通路出強相關,包括巨噬細胞細胞因子產(chǎn)生、T細胞分化、T細胞活化等(圖5B)。此外,在TCGA和湘雅數(shù)據(jù)集的免疫圖雷達圖所示的高評分組中,TME相關特征顯著上調(diào)(圖5C和D)。GSEA富集分析顯示,高TIIClnc signature組富集在巨噬細胞活化、DC趨化、IFN-γ產(chǎn)生和T細胞增殖調(diào)節(jié)(圖5E)以及MAPK、NF-kappa B、mTOR和PI3K-Akt信號通路(圖5F)??傊?,結(jié)果顯示TIIClnc signature得分高的患者在免疫療法下免疫應答更強。
在多個數(shù)據(jù)集中驗證TIIClnc signature的預測
由于TIIClnc signature對免疫治療的預測能力,作者接下來驗證了多個免疫治療數(shù)據(jù)集的效率,包括 IMvigor(尿路上皮癌)、GSE91061(黑色素瘤)、GSE165252(食管腺癌)、GSE35640(黑色素瘤)、GSE103668(三陰性乳腺癌)、GSE78220(黑色素瘤)和 PRJNA482620(GBM)。如圖6A-H 所示,高分組具有更好的免疫治療反應和更長的生存時間。從 TIDE 和 submap 生成的列聯(lián)表也有與上述相同的結(jié)果(圖6I和J)。然而,GBM數(shù)據(jù)集(PRJNA482620)生存分析顯示了相反的結(jié)果(圖6K)。隨后,在湘雅內(nèi)部數(shù)據(jù)集中驗證了TIIClnc signature的預測價值。如散點圖所示,TIIClnc 得分與已知的免疫治療指標 CD8、PD-1 和 PD-L1 呈顯著正相關(圖 6L、N和M)??傊?,具有高 TIIClnc signature的患者可能會從免疫治療中獲益更多。
總結(jié)
文章到這里就結(jié)束了!不同于以往的文章,這篇文章結(jié)合多種機器學習的方法篩選特征,構建免疫相關的預后模型。機器學習作為當下非?;馃岬姆较?,是不是也吸引著很多小伙伴?這篇文章就為我們提供了不錯的思路!海量的數(shù)據(jù),成熟的機器學習算法都已經(jīng)具備,下一個10+文章說不定就是你的哦!