好久不見,分外想念!機器學(xué)習(xí)作為一個讓人又愛又恨的領(lǐng)域?qū)Υ蠹矣兄煌瑢こ5奈?,愛是因為機器學(xué)習(xí)可以從大量的數(shù)據(jù)中挖掘其中蘊含的規(guī)律,恨是因為其中涉及到各種復(fù)雜的原理讓人頭痛!今天小編就帶大家一起閱讀一篇2022年9月22日發(fā)表在BRIEFINGS IN BIOINFORMATICS(IF:13.994)的機器學(xué)習(xí)相關(guān)文章吧!看看作者是如何使用機器學(xué)習(xí)算法挖掘預(yù)后和免疫治療相關(guān)特征!
Machine learning-based tumor-infiltrating immune cell-associated lncRNAs for predicting prognosis and immunotherapy response in patients with glioblastoma
基于機器學(xué)習(xí)的腫瘤浸潤免疫細(xì)胞相關(guān)lncRNAs預(yù)測膠質(zhì)母細(xì)胞瘤患者的預(yù)后和免疫治療反應(yīng)
研究背景
長期以來,lncRNAs與腫瘤免疫調(diào)節(jié)有關(guān)。然而,免疫細(xì)胞特異性lncRNAs在膠質(zhì)母細(xì)胞瘤(GBM)中的作用尚不清楚。 本研究采用6種機器學(xué)習(xí)算法,綜合分析純化的免疫細(xì)胞、GBM細(xì)胞株和GBM組織的轉(zhuǎn)錄組數(shù)據(jù),構(gòu)建了一個新的計算框架,用于篩選腫瘤浸潤免疫細(xì)胞相關(guān)的lncRNAs(TIICLNC)以開發(fā)TIICLNC signature。 結(jié)果表明,TIICLNC signature可以在四個獨立的數(shù)據(jù)集中區(qū)分GBM患者的生存結(jié)果,更重要的是,在膠質(zhì)瘤中顯示出優(yōu)于95個先前建立的signature集的性能。 TIICLNCsignature可作為免疫細(xì)胞浸潤水平的指標(biāo),并可預(yù)測免疫治療的療效。 在湘雅實驗室數(shù)據(jù)集上驗證了TIICLNC signature與CD8、PD-1和PD-L1的正相關(guān)關(guān)系。 作為一個新發(fā)現(xiàn)的預(yù)測性生物標(biāo)志物,TIICLNC signature能更精確地篩選從免疫治療中受益的GBM人群,并應(yīng)在不久的將來得到驗證和應(yīng)用。
主要結(jié)果
TIIClncRNAs的鑒定
為了全面評價免疫細(xì)胞相關(guān)的lncRNA,從16個數(shù)據(jù)集(GSE13906, GSE23371,GSE25320, GSE27291, GSE27838, GSE28490, GSE28698, GSE28726,GSE37750, GSE39889, GSE42058, GSE49910, GSE51540, GSE59237,GSE6863 、GSE8059)中篩選出由19種免疫細(xì)胞類型組成的純化細(xì)胞系(圖1)。 在每種免疫細(xì)胞中的表達(dá)水平排名前15%的LncRNAs有546個,這些LncRNAs被認(rèn)為是候選的免疫相關(guān)LncRNAs。 隨后,計算候選免疫的lncRNAs的TSI得分,以識別在不同免疫細(xì)胞類型中普遍表達(dá)的hklncRNAs(在所有免疫細(xì)胞中高表達(dá)的lncRNAs)。TSI得分較低的lncRNAs在所有19種免疫細(xì)胞中均高表達(dá),表明它們在免疫中發(fā)揮重要作用。 在設(shè)定TSI<0.2的閾值后,鑒定出308個對調(diào)節(jié)細(xì)胞免疫至關(guān)重要的HKLncRNAs。 然后,從308個HKLncRNAs中鑒定出152個在免疫細(xì)胞系(上調(diào))和GBM細(xì)胞系(下調(diào))之間差異表達(dá)的HKLncRNAs,并將其視為GBM 的TIICLncRNAs。
構(gòu)建TIIClnc signature
進(jìn)一步應(yīng)用LassoLR、Boruta、XGBoost、SVM、Random Forest和PAMR六種機器學(xué)習(xí)算法,從152個GBM的TIIClncRNAs中識別出16個最有價值的TIIClncRNAs(圖2A)。 采用單因素Cox回歸分析,篩選出對GBM患OS有預(yù)后價值的TIIClncRNAs。 在TCGA GBM數(shù)據(jù)集中識別出12個TIIClncRNAs。 最后,根據(jù)TCGA GBM數(shù)據(jù)集中所有可能的預(yù)后TIICLNCRNAs組合的估計回歸系數(shù)進(jìn)行加權(quán),構(gòu)建TIICLNC signature。 基于高斯混合模型(GMM)進(jìn)行分類,其中有八個聚類4095個組合(圖2B)。 在TCGA GBM數(shù)據(jù)集中最大的1年AUC由三個TIICLNCRNAs構(gòu)成(圖2B)。即:
TIICLNC signature=(0.5751*LINC00894表達(dá)值)+(1.0609*LOC100506585表達(dá)值)+(1.0639*LOC100507156表達(dá)值)。
在TCGA 、CGGA、GSE108474以及湘雅隊列中,高TIILNC特征評分的GBM患者的預(yù)后更差(圖2C、E、G和H)。 TCGA一年生存的AUC為0.727(圖2D)。湘雅隊列一年生存 AUC值為0.705(圖2F)。單因素和多因素Cox回歸分析證實TIICLNC特征是TCGA GBM數(shù)據(jù)集中的一個獨立危險因素(圖2I)。
TIICLNC signature與已發(fā)表signature的預(yù)后價值比較
為了檢驗TIICLNCsignatures的預(yù)后性能,作者分析了95個signatures,包括lncRNA和mRNA,并比較了TCGA和湘雅數(shù)據(jù)集的1年AUC。 這95個特征與多種生物學(xué)特征有關(guān),包括免疫浸潤、自噬、鐵死亡、焦亡、上皮間質(zhì)轉(zhuǎn)變、缺氧、表觀遺傳學(xué)、N6-甲基腺苷等。TIICLNC signatures比任何其他signatures擁有更好性能(圖3)。
TIICLNC signature表現(xiàn)出顯著的免疫相關(guān)特征
高TIICLNC組表現(xiàn)出較高水平的免疫浸潤細(xì)胞和免疫調(diào)節(jié)劑,與膠質(zhì)瘤亞型、IDH突變和O6-甲基鳥嘌呤-DNA甲基轉(zhuǎn)移酶甲基化無關(guān),表明炎癥但相對免疫抑制的微環(huán)境,是免疫治療的潛在受益者(圖4A和B)。還比較了高分組和低分組之間與免疫反應(yīng)性更強的微環(huán)境相關(guān)的MSI、TMB、CYT、GEP、TCR、IFN-γ和IPS的狀況。結(jié)果發(fā)現(xiàn),在高得分組中,這些特征都處于較高水平(圖4C-F)。
預(yù)測與TIIClnc signature相關(guān)的生物學(xué)機制
由于高分組免疫上調(diào),接下來探究高分組的潛在生物學(xué)機制。在TCGA和湘雅數(shù)據(jù)集上,高分組在抗原釋放、癌癥抗原呈遞、引發(fā)和激活、免疫細(xì)胞募集和浸潤、癌細(xì)胞識別和癌細(xì)胞殺傷等癌癥免疫循環(huán)中更為活躍(圖5A)。TIIClnc signature與半乳糖代謝和鞘脂代謝等多種代謝通路呈正相關(guān)(圖5B)。此外,TIIClnc signature與多種免疫通路出強相關(guān),包括巨噬細(xì)胞細(xì)胞因子產(chǎn)生、T細(xì)胞分化、T細(xì)胞活化等(圖5B)。此外,在TCGA和湘雅數(shù)據(jù)集的免疫圖雷達(dá)圖所示的高評分組中,TME相關(guān)特征顯著上調(diào)(圖5C和D)。GSEA富集分析顯示,高TIIClnc signature組富集在巨噬細(xì)胞活化、DC趨化、IFN-γ產(chǎn)生和T細(xì)胞增殖調(diào)節(jié)(圖5E)以及MAPK、NF-kappa B、mTOR和PI3K-Akt信號通路(圖5F)??傊?,結(jié)果顯示TIIClnc signature得分高的患者在免疫療法下免疫應(yīng)答更強。
在多個數(shù)據(jù)集中驗證TIIClnc signature的預(yù)測
由于TIIClnc signature對免疫治療的預(yù)測能力,作者接下來驗證了多個免疫治療數(shù)據(jù)集的效率,包括 IMvigor(尿路上皮癌)、GSE91061(黑色素瘤)、GSE165252(食管腺癌)、GSE35640(黑色素瘤)、GSE103668(三陰性乳腺癌)、GSE78220(黑色素瘤)和 PRJNA482620(GBM)。如圖6A-H 所示,高分組具有更好的免疫治療反應(yīng)和更長的生存時間。從 TIDE 和 submap 生成的列聯(lián)表也有與上述相同的結(jié)果(圖6I和J)。然而,GBM數(shù)據(jù)集(PRJNA482620)生存分析顯示了相反的結(jié)果(圖6K)。隨后,在湘雅內(nèi)部數(shù)據(jù)集中驗證了TIIClnc signature的預(yù)測價值。如散點圖所示,TIIClnc 得分與已知的免疫治療指標(biāo) CD8、PD-1 和 PD-L1 呈顯著正相關(guān)(圖 6L、N和M)??傊哂懈?TIIClnc signature的患者可能會從免疫治療中獲益更多。
總結(jié)
文章到這里就結(jié)束了!不同于以往的文章,這篇文章結(jié)合多種機器學(xué)習(xí)的方法篩選特征,構(gòu)建免疫相關(guān)的預(yù)后模型。機器學(xué)習(xí)作為當(dāng)下非?;馃岬姆较颍遣皇且参芏嘈』锇??這篇文章就為我們提供了不錯的思路!海量的數(shù)據(jù),成熟的機器學(xué)習(xí)算法都已經(jīng)具備,下一個10+文章說不定就是你的哦!