結(jié)直腸癌在我國的發(fā)病率呈逐年上升的趨勢(shì),在結(jié)直腸癌的治療中,基于生物標(biāo)志物檢測(cè)進(jìn)行治療決策已是共識(shí)。今天給大家分享的是一篇關(guān)于結(jié)直腸癌的免疫相關(guān)lncRNA 特征的文章,發(fā)表于《nature communications》(IF: 14.919)上。
基于機(jī)器學(xué)習(xí)的整合開發(fā)了一種用于改善結(jié)直腸癌預(yù)后的免疫相關(guān)lncRNA 特征
研究思路
本研究收集了多個(gè)數(shù)據(jù)集,同時(shí)也結(jié)合了內(nèi)部臨床數(shù)據(jù)集。總體研究思路是算法開發(fā)、模型構(gòu)建、公共數(shù)據(jù)集和內(nèi)部臨床數(shù)據(jù)集的驗(yàn)證、耐藥性和臨床治療研究?;跈C(jī)器學(xué)習(xí)的算法開發(fā)是本研究的一大亮點(diǎn)。
結(jié)果
1. 免疫浸潤亞群的鑒定和驗(yàn)證
作者首先通過根據(jù)ssGSEA 評(píng)估的 28 個(gè)免疫細(xì)胞浸潤豐度對(duì)CRC樣本進(jìn)行了共識(shí)聚類,將所有樣本分成C1和C2兩大亞群,C2 的總體浸潤程度明顯高于 C1。然后作者通過 ESTIMATE 算法計(jì)算的 TCGA-CRC 隊(duì)列中兩個(gè)亞群之間的免疫評(píng)分情況,C2也是高于C1,說明了ssGSEA 結(jié)果的穩(wěn)定性和可靠性(圖1A-D)。
2. 鑒定源自免疫浸潤模塊的 lncRNA 模塊
為提取出與免疫相關(guān)的lncRNA,作者進(jìn)一步進(jìn)行了WGCNA分析,結(jié)果發(fā)現(xiàn)黃色模塊與免疫的相關(guān)性最高(圖1F)。于是作者從這一模塊中篩選出了526 個(gè)lncRNA,其篩選標(biāo)準(zhǔn)是GS(Gene Signifificance) > 0.5 和 MM(Module Membership)> 0.6(圖1G)。
3. 根據(jù)ImmLnc算法篩選免疫相關(guān) lncRNA
ImmLnc是一種用于識(shí)別免疫相關(guān)通路的 lncRNA的集成算法,首先是使用 ESTIMATE 算法推斷腫瘤純度,其次通過將腫瘤純度調(diào)整為協(xié)變量,計(jì)算特定lncRNA與所有 mRNA 之間的偏相關(guān)系數(shù) (PCC),最后,根據(jù)所有的mRNAs與特定lncRNA的相關(guān)系數(shù)進(jìn)行排序,排序后的基因列表進(jìn)一步進(jìn)行 GSEA 分析。一般lncRES 評(píng)分 >0.995且 FDR?<?0.05被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
根據(jù)ImmLnc算法作者確定了 791 個(gè)免疫相關(guān) lncRNA,它們與細(xì)胞因子受體、TCR 信號(hào)通路、趨化因子受體、NK細(xì)胞毒性和抗原加工和呈遞等通路相關(guān)(圖1H)。再通過與前面 WGCNA鑒定出的lncRNA取交集,共提取了 235個(gè)重疊的 lncRNA 用于后續(xù)分析(圖 1I)。
4. 共識(shí)特征的綜合構(gòu)建
基于前面所鑒定出的235 個(gè)免疫相關(guān) lncRNA 的表達(dá)譜,作者通過單變量Cox分析確定了 43 個(gè)預(yù)后相關(guān)lncRNA。在TCGA-CRC隊(duì)列中,作者通過留一法交叉驗(yàn)證(LOOCV)擬合了 101 種預(yù)測(cè)模型,并進(jìn)一步計(jì)算了每個(gè)模型在所有驗(yàn)證數(shù)據(jù)集中的C-index。發(fā)現(xiàn)最佳模型是Lasso 和逐步 Cox回歸的組合,該組合模型在所有驗(yàn)證數(shù)據(jù)集中都具有很高的C-index(圖2A)。然后作者確定了最佳 λ,并進(jìn)一步生成預(yù)后基因的 Lasso 系數(shù)(圖 2B)。作者接著對(duì) Lasso 系數(shù)非零的 30 個(gè) lncRNA 進(jìn)行逐步 Cox 比例風(fēng)險(xiǎn)回歸,最終確定了 16 個(gè) lncRNA(圖 2C),構(gòu)建了免疫相關(guān) lncRNA 特征(IRLS)。之后,作者根據(jù) survminer 包確定的最佳臨界值,將所有患者分為高危組和低危組。如圖 2D-J 所示,在TCGA-CRC 訓(xùn)練數(shù)據(jù)集和六個(gè)驗(yàn)證數(shù)據(jù)集中,高風(fēng)險(xiǎn)組患者的總生存期 (OS) 明顯低于低風(fēng)險(xiǎn)組。將所有樣本組合在一起也顯示出相同的趨勢(shì)(圖2K)。
5. IRLS 模型的評(píng)估
為進(jìn)一步評(píng)估IRLS 模型的性能,作者計(jì)算了TCGA-CRC隊(duì)列、GSE17536、GSE17537、GSE29621、GSE38832、GSE39582和GSE72970隊(duì)列以及綜合隊(duì)列中樣本1 年、3 年和 5 年的 AUC(圖3A)。并計(jì)算出了所有數(shù)據(jù)集的 IRLS 的 C-index(圖3B)。之后作者又對(duì)IRLS 在預(yù)測(cè)預(yù)后方面的表現(xiàn)與其他臨床和分子變量進(jìn)行了比較,如圖 3C 所示,IRLS 的準(zhǔn)確性明顯優(yōu)于其他變量。
6. CRC中基于基因表達(dá)的預(yù)后特征的比較
接下來,作者比較了 IRLS 與其他特征的性能,一共收集了109 個(gè)特征(包括 mRNA 和 lncRNA 特征)。作者對(duì)每個(gè)特征在所有數(shù)據(jù)集中進(jìn)行了單變量Cox 回歸,觀察到只有IRLS模型與所有隊(duì)列樣本的預(yù)后顯著相關(guān)(圖 4A),這個(gè)結(jié)果證明了IRLS的穩(wěn)定性。此外,作者又將 IRLS與其他特征的C-index進(jìn)行了比較,發(fā)現(xiàn)IRLS 在每個(gè)數(shù)據(jù)集中都顯示出比幾乎其他所有特征更好的性能(圖4B),這說明了IRLS模型的適用性較廣。
7. 在臨床內(nèi)部隊(duì)列中進(jìn)行驗(yàn)證
為了進(jìn)一步驗(yàn)證IRLS 模型在臨床的可行性價(jià)值,作者接下來通過 qRT-PCR 分析評(píng)估了這些 lncRNA 在 232 名 CRC 患者的臨床隊(duì)列中的表達(dá)情況。Kaplan-Meier 分析表明,IRLS 高的患者的 OS 和 RFS 顯著降低(圖 5A-B)。在進(jìn)一步的多變量 Cox 回歸分析中,IRLS 模型對(duì)于 OS仍然具有統(tǒng)計(jì)學(xué)意義(圖5C-D),與上述結(jié)果一致。接下來的ROC分析也顯示 IRLS 的準(zhǔn)確性更高:預(yù)測(cè) 1、3 和 5 年 OS的AUC 分別為 0.840、0.776 和 0.818(圖5E)。此外,作者還比較了 IRLS 與其他臨床特征的預(yù)測(cè)優(yōu)勢(shì),結(jié)果發(fā)現(xiàn)??IRLS 的預(yù)測(cè)性能優(yōu)于其他特征(圖5F)??偟膩碚f,對(duì)臨床內(nèi)部隊(duì)列的分析結(jié)果驗(yàn)證并證實(shí)了IRLS 模型的穩(wěn)健性,說明其可以作為 CRC 預(yù)后的獨(dú)立預(yù)測(cè)因子。
8. 氟尿嘧啶類ACT和貝伐單抗療效的預(yù)測(cè)價(jià)值
研究表明,lncRNA 與氟尿嘧啶類ACT和貝伐單抗的敏感性和耐藥性有關(guān)。因此,作者進(jìn)一步評(píng)估了IRLS在量化氟尿嘧啶基ACT和貝伐單抗療效的預(yù)測(cè)價(jià)值。研究中納入了 6 個(gè)使用氟尿嘧啶類ACT治療的數(shù)據(jù)集(GSE19860、GSE28702、GSE45404、GSE69657 、GSE72970和GSE62080),包括 180 名無應(yīng)答者和 160 名應(yīng)答者。結(jié)果發(fā)現(xiàn)應(yīng)答組的 IRLS 分?jǐn)?shù)顯著高于無應(yīng)答組(圖6A-E)。圖6F的GSE62080 中的應(yīng)答組有更高IRLS 的趨勢(shì),但這并不顯著。作者推測(cè)這可能是由于樣本量太少。進(jìn)一步的ROC 分析表明,IRLS 可以準(zhǔn)確預(yù)測(cè)氟尿嘧啶類ACT的療效(圖 6G-L)。之后,作者也在內(nèi)部隊(duì)列中進(jìn)行了相同的分析,也得到了同樣的結(jié)論(6M-N)。最后,作者還收集了三個(gè)有貝伐單抗治療信息的數(shù)據(jù)集(GSE19860、GSE19862 和 GSE72970),評(píng)估了IRLS 對(duì)貝伐單抗療效的預(yù)測(cè),與氟尿嘧啶類ACT 相比,對(duì)貝伐單抗敏感的患者,表現(xiàn)出較低的IRLS水平(圖 6O-Q)。綜合來看,IRLS高的患者往往對(duì)氟尿嘧啶類ACT敏感,對(duì)貝伐單抗耐藥,而IRLS低的患者對(duì)貝伐單抗敏感,對(duì)氟尿嘧啶類ACT耐藥。
9. IRLS 對(duì) ICI 治療的意義
由于IRLS是基于免疫相關(guān)的 lncRNA開發(fā)的,于是作者假設(shè)不同水平的 IRLS 的免疫特征和免疫治療效果存在差異。細(xì)胞浸潤分析顯示 TCGA-CRC 和 Meta-GEO 隊(duì)列中 IRLS 和免疫浸潤豐度之間存在顯著的負(fù)相關(guān)(圖7A-D)。為了進(jìn)一步驗(yàn)證CD8A 在不同 IRLS水平下的蛋白質(zhì)表達(dá),作者對(duì)石蠟切片進(jìn)行了IHC,其中包括56個(gè)高風(fēng)險(xiǎn)CRC和 48個(gè)低風(fēng)險(xiǎn)CRC樣本。 IHC 圖像和評(píng)分顯示,CD8A的表達(dá)在低風(fēng)險(xiǎn)組中顯著升高(圖7E-F)。這表明 IRLS 低的患者可能擁有更多的ICI(免疫檢查點(diǎn)抑制劑 )治療后備資源。此外,IRLS 還與 TCGA-CRC、Meta-GEO和內(nèi)部隊(duì)列中的 PD-L1 表達(dá)呈負(fù)相關(guān)(圖7G)。在蛋白質(zhì)水平上也有一致的發(fā)現(xiàn)(圖 7I-J)。此外,微衛(wèi)星狀態(tài)也被認(rèn)為是CRC中免疫浸潤和 ICI 治療的有力的生物標(biāo)志物。在這項(xiàng)研究中,作者觀察到 dMMR/MSI-H患者的IRLS 顯著低于 pMMR/MSI-L/MSS 患者。同時(shí),IRLS可以準(zhǔn)確預(yù)測(cè) TCGC-CRC、Meta-GEO和內(nèi)部隊(duì)列中的 dMMR/MSI-H 表型(圖7K-M)。這表明 IRLS 是微衛(wèi)星狀態(tài)標(biāo)記的有利替代物。最后,作者發(fā)現(xiàn)IRLS 還可以顯著區(qū)分pembrolizumab的應(yīng)答者和無應(yīng)答者,并顯著優(yōu)于 PD-L1和 CD8A(圖7N)。
總結(jié)
在本研究中,作者開發(fā)了一種基于機(jī)器學(xué)習(xí)的集成算法(ImmLnc),用于構(gòu)建共識(shí)免疫相關(guān) lncRNA 特征 (IRLS)模型。之后又通過評(píng)估IRLS模型在多個(gè)數(shù)據(jù)集中的應(yīng)用性能、比較其他特征與IRLS模型的預(yù)測(cè)性能以及IRLS模型在臨床樣本中的應(yīng)用,綜合說明了IRLS模型的穩(wěn)定性和可靠性。
參考文獻(xiàn)
Liu, Z., Liu, L., Weng, S. et al. Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer. Nat Commun 13, 816 (2022).