大家好,今天給大家做一個(gè)文獻(xiàn)解讀,隨著生物信息學(xué)的發(fā)展和大量文章的發(fā)表,簡(jiǎn)單的生物實(shí)驗(yàn)、通路機(jī)制類的文章已經(jīng)不再新鮮,期刊雜志也不滿足于簡(jiǎn)單的實(shí)驗(yàn)類文章,生物信息學(xué)文章近年來(lái)大量發(fā)表,而文章中應(yīng)用到的生物信息學(xué)方法也內(nèi)卷嚴(yán)重,那么我們除了做簡(jiǎn)單的生物信息學(xué)分析外,要多看多學(xué)多用,創(chuàng)新的算法與實(shí)驗(yàn)結(jié)合,讓投文章更加簡(jiǎn)單。
這個(gè)期刊的水平不用多說(shuō),中科院一區(qū),OA雜志,11年出版,《Theranostics》創(chuàng)刊第2年即被SCI收錄,首個(gè)影響因子就有7.806分之高,此后三年逐年攀升,2015年后的連續(xù)三年下降終于開(kāi)始上漲,在2019年達(dá)到峰值8.579分,今年更是達(dá)到了11.6分,隨著影響因子的通貨膨脹,預(yù)測(cè)接下來(lái)還會(huì)繼續(xù)升高。
首先這篇文章值得一提的是它的算法圖,不愧是一區(qū)的文章,圖的布局相當(dāng)好看,也十分恰當(dāng)把文章中的關(guān)鍵點(diǎn)、創(chuàng)新點(diǎn)直觀的展示給讀者。
本研究利用一種新的計(jì)算框架和10種機(jī)器學(xué)習(xí)算法(101種組合),綜合分析低級(jí)別膠質(zhì)瘤(LGG)純化的免疫細(xì)胞、LGG細(xì)胞系和LGG大體積組織的測(cè)序數(shù)據(jù),篩選出TIIC lncRNAs。
大家都知道,長(zhǎng)鏈非編碼rna (long noncoding RNAs, lncRNAs)作用關(guān)鍵,可以參與免疫系統(tǒng)的調(diào)節(jié),在免疫細(xì)胞亞群中表現(xiàn)出細(xì)胞類型的特異性模式。鑒于腫瘤浸潤(rùn)淋巴細(xì)胞在有效免疫治療中的重要作用,研究者探索了在低級(jí)別膠質(zhì)瘤(LGG)中尚未發(fā)現(xiàn)的腫瘤浸潤(rùn)免疫細(xì)胞相關(guān)lncRNA (TIIClncRNA)。
說(shuō)起來(lái),腫瘤浸潤(rùn)免疫細(xì)胞相關(guān)的lncRNA肯定是有很多相關(guān)的研究了,但作者選題角度也很刁鉆,選擇了癌癥研究較少的膠質(zhì)瘤,并進(jìn)一步篩選出低級(jí)別膠質(zhì)瘤,這一點(diǎn)使得他的研究不是重復(fù)而無(wú)意義的了,選題新穎。
1.首先介紹一下作者的數(shù)據(jù)來(lái)源,無(wú)非就是這幾個(gè)常用的公共數(shù)據(jù)庫(kù)TCGA-LGG, CGGA數(shù)據(jù)庫(kù),GEO數(shù)據(jù)庫(kù)的十六個(gè)膠質(zhì)瘤數(shù)據(jù)集以及癌癥細(xì)胞系百科全書項(xiàng)目CCLE。
2.接下來(lái)是對(duì)轉(zhuǎn)錄組數(shù)據(jù)的處理,對(duì)芯片數(shù)據(jù)進(jìn)行歸一化處理,F(xiàn)PKM數(shù)據(jù)轉(zhuǎn)化為TPM數(shù)據(jù),通過(guò)GENECODE數(shù)據(jù)庫(kù)對(duì)Lncrna探針進(jìn)行注釋。
3.通過(guò)對(duì)純化的免疫細(xì)胞、LGG細(xì)胞系和LGG腫瘤組織的lncRNA分析,研究者利用一種新的計(jì)算框架,結(jié)合多種機(jī)器學(xué)習(xí)算法識(shí)別腫瘤浸潤(rùn)性免疫細(xì)胞相關(guān)lncRNA (TIIClnc) signature。
4.TIIClnc signature的免疫相關(guān)特征注釋:
收集到7種免疫調(diào)節(jié)劑。計(jì)算T細(xì)胞炎癥基因表達(dá)譜(GEP)、細(xì)胞毒活性(CYT)和干擾素γ (IFN-γ)。
從TCGA數(shù)據(jù)庫(kù)中收集腫瘤突變負(fù)擔(dān)(TMB)、微衛(wèi)星不穩(wěn)定性(MSI)、T細(xì)胞受體(TCR)豐富度、TCR Shannon和SNV Neoantigen。
使用GATK4從湘雅內(nèi)部數(shù)據(jù)集的RNA測(cè)序數(shù)據(jù)中搜索snp和indel。
采用基于來(lái)自genome Reference Consortium(基因組參考聯(lián)盟)的智人基因組裝配體“GRCh38”的方差分析方法對(duì)突變信息進(jìn)行標(biāo)注。進(jìn)一步利用R軟件包maftools的tmb函數(shù)計(jì)算湘雅內(nèi)部數(shù)據(jù)集的tmb值。利用R包PreMSIm對(duì)湘雅內(nèi)部數(shù)據(jù)集的MSI值進(jìn)行預(yù)測(cè)。
如前所述,確定了6種免疫亞型和immunophenoscore(IPS)。采用腫瘤免疫估計(jì)資源(TIMER)算法、單細(xì)胞基因集富集分析(ssGSEA)算法、微環(huán)境細(xì)胞種群計(jì)數(shù)器(MCPcounter)算法和利用表達(dá)數(shù)據(jù)(ESTIMATE)算法估計(jì)惡性腫瘤基質(zhì)細(xì)胞和免疫細(xì)胞,計(jì)算免疫浸潤(rùn)細(xì)胞的豐度和ESTIMATE評(píng)分。
收集癌癥免疫周期,顯示趨化因子和免疫調(diào)節(jié)劑的功能狀態(tài),并通過(guò)基因集變異分析(gene set variation analysis, GSVA)富集出114條代謝通路。使用GSVA進(jìn)行計(jì)算,基因本體(GO)和京都基因和基因組百科全書(KEGG)富集,并使用gsva和基因集富集分析(GSEA)進(jìn)行量化。
5.為了進(jìn)一步體現(xiàn)TIIClnc signature對(duì)免疫治療反應(yīng)的預(yù)測(cè)價(jià)值,使用GSE35640(黑素瘤)、GSE91061(黑素瘤)、GSE78220(黑素瘤)、Allen(黑素瘤)、Nathanson(黑素瘤)、IMvigor(尿路上皮癌)、Braun(腎細(xì)胞癌)、GSE179351(結(jié)直腸腺癌和胰腺腺癌)、GSE165252(食管腺癌)和PRJNA482620(膠質(zhì)母細(xì)胞瘤)數(shù)據(jù)集預(yù)測(cè)免疫治療反應(yīng),同時(shí)計(jì)算每個(gè)數(shù)據(jù)集的TIIClnc標(biāo)記。GSE103668(三陰性乳腺癌)數(shù)據(jù)集用于預(yù)測(cè)靶向治療反應(yīng)(順鉑和貝伐單抗)。亞類圖譜用于預(yù)測(cè)抗pd-1和抗ctla-4免疫治療反應(yīng)。本節(jié)也使用了Tumor Immune Dysfunction and Exclusion (TIDE)算法。
6.接下來(lái)是文章的實(shí)驗(yàn)部分,使用了湘雅的膠質(zhì)瘤數(shù)據(jù),做了RT-pcr數(shù)據(jù),對(duì)LOC101928134和LOC100133461進(jìn)行了表達(dá)量分析。
將三組轉(zhuǎn)染sirna的THP-1細(xì)胞離心,使用無(wú)血清培養(yǎng)基重懸。調(diào)整密度為105個(gè)細(xì)胞/mL。上腔加入細(xì)胞懸液100 μL,下腔加入含10% FBS的1640 500 μL。培養(yǎng)48 h后收集下腔遷移的THP-1細(xì)胞,流式細(xì)胞術(shù)計(jì)數(shù)。后續(xù)做了細(xì)胞實(shí)驗(yàn)與染色。
圖2結(jié)果展示了TIIClnc信號(hào)的預(yù)后價(jià)值。這部分結(jié)果展示了各個(gè)算法組合后,對(duì)TIIClnc signature的篩選過(guò)程,并通過(guò)一系列生存分析和ROC曲線展示其重要性。
A.通過(guò)10倍交叉驗(yàn)證框架,共有101種用于TIIClnc signature的機(jī)器學(xué)習(xí)算法組合。通過(guò)TCGA-LGG、湘雅內(nèi)部、CGGA-LGG和GSE108474等驗(yàn)證數(shù)據(jù)集計(jì)算各模型的c-index。
B.基于CoxBoost算法的16個(gè)最具價(jià)值的TIIClncRNAs展覽。
C.基于RSF算法確定誤差最小的TIIClnc signature樹的數(shù)量,以及16個(gè)最有價(jià)值的TIIClncRNA的重要性。
D. TCGA- LGG、湘雅內(nèi)部、CGGA- LGG和GSE108474數(shù)據(jù)集中TIIClnc signature得分高和TIIClnc signature得分低的患者的OS生存曲線Kaplan-Meier。
E. CGGA-LGG、湘雅內(nèi)部、TCGA-LGG和GSE108474數(shù)據(jù)集1年、2年、3年、4年和5年OS的時(shí)間依賴性ROC曲線,顯示了這組 signature具有較好的穩(wěn)定性。
圖3. TIIClnc signature與其他模型的比較。通過(guò)不同數(shù)據(jù)集進(jìn)行比對(duì),并引入了其他隨訪數(shù)據(jù)進(jìn)行比對(duì)。
A. TCGA-LGG、湘雅內(nèi)部、CGGA-LGG和GSE108474數(shù)據(jù)集的TIIClnc signature、其他臨床因素和組合 signature的C-index。
B. TCGA LGG、湘雅內(nèi)部、CGGA LGG和GSE108474數(shù)據(jù)集中的TIIClnc特征的1年、2年和3年校準(zhǔn)曲線。
C. TIIClnc signature的C-index和TCGA LGG數(shù)據(jù)集中開(kāi)發(fā)的其他模型。
D. TIIClnc signature的C-index和湘雅內(nèi)部數(shù)據(jù)集中開(kāi)發(fā)的其他模型。
E. TIIClnc signature的C-index和CGGA LGG數(shù)據(jù)集開(kāi)發(fā)的其他模型。
F. TIIClnc signature的C-index和GSE108474數(shù)據(jù)集中開(kāi)發(fā)的其他模型。
圖4. 湘雅內(nèi)部數(shù)據(jù)集中TIIClnc signature的免疫相關(guān)特征,TIIClnc signature與免疫細(xì)胞浸潤(rùn)與免疫調(diào)節(jié)進(jìn)行熱圖分析,研究他們之間的相關(guān)。
A.顯示TIIClnc信號(hào)與免疫浸潤(rùn)細(xì)胞相關(guān)性的熱圖。
B.顯示TIIClnc signature與免疫調(diào)節(jié)分子之間相關(guān)性的熱圖。
C.顯示兩個(gè)TIIClnc signature評(píng)分組之間的CYT水平的小提琴圖。
D.顯示兩個(gè)TIIClnc signature得分組之間的GEP水平的小提琴圖。
E.顯示兩個(gè)TIIClnc signature評(píng)分組之間IFN-γ水平的小提琴圖。
F.顯示兩個(gè)MSI組間TIIClnc水平的小提琴圖。
G.顯示兩個(gè)TIIClnc signature分?jǐn)?shù)組之間TMB水平的小提琴圖。
H.兩個(gè)TIIClnc signature得分組之間IPS級(jí)別的小提琴圖。
圖5. TIIClnc signature對(duì)免疫治療反應(yīng)的預(yù)測(cè)價(jià)值,根據(jù)TIIClnc signature對(duì)數(shù)據(jù)集的評(píng)分對(duì)預(yù)后數(shù)據(jù)進(jìn)行評(píng)價(jià)。
A. IMvigor數(shù)據(jù)集中TIIClnc評(píng)分高與TIIClnc評(píng)分低的患者間OS的Kaplan-Meier生存曲線。
B. IMvigor數(shù)據(jù)集中顯示不同免疫治療反應(yīng)患者TIIClnc signature評(píng)分的箱線圖。
C.顯示GSE179351數(shù)據(jù)集中不同免疫治療反應(yīng)患者TIIClnc signature評(píng)分的框圖。
D. Braun數(shù)據(jù)集中TIIClnc評(píng)分高和TIIClnc評(píng)分低的患者之間的OS生存曲線。
E. Braun數(shù)據(jù)集中顯示不同免疫治療反應(yīng)患者TIIClnc signature評(píng)分的方框圖。
F.顯示GSE103668數(shù)據(jù)集中不同免疫治療反應(yīng)患者TIIClnc signature評(píng)分的方框圖。
G.顯示GSE165252數(shù)據(jù)集中不同免疫治療反應(yīng)患者TIIClnc signature評(píng)分的框圖。Allen數(shù)據(jù)集中TIIClnc評(píng)分高和TIIClnc評(píng)分低的患者的OS生存曲線。
I. Allen數(shù)據(jù)集中顯示不同免疫治療反應(yīng)患者TIIClnc signature評(píng)分的方框圖。GSE78220數(shù)據(jù)集中TIIClnc高評(píng)分和TIIClnc低評(píng)分患者OS的J. Kaplan-Meier生存曲線。
K. Box圖顯示GSE78220數(shù)據(jù)集中不同免疫治療反應(yīng)患者的TIIClnc signature評(píng)分。Nathanson數(shù)據(jù)集中TIIClnc評(píng)分高和TIIClnc評(píng)分低的患者之間的OS生存曲線。
M. Box圖顯示Nathanson數(shù)據(jù)集中不同免疫治療反應(yīng)患者的TIIClnc signature評(píng)分。
N. Box圖顯示GSE35640數(shù)據(jù)集中不同免疫治療反應(yīng)患者的TIIClnc signature評(píng)分。
O. Box圖顯示GSE91061數(shù)據(jù)集中不同免疫治療反應(yīng)患者的TIIClnc signature評(píng)分。
P.湘雅內(nèi)部數(shù)據(jù)集中基于TIDE算法的免疫治療反應(yīng)與TIIClnc signature評(píng)分組的聯(lián)列表。
Q.基于湘雅內(nèi)部數(shù)據(jù)集的子圖分析,免疫治療反應(yīng)(anti-PD-1和anti-CTLA-4)和TIIClnc signature評(píng)分組之間的聯(lián)列表。PRJNA482620數(shù)據(jù)集中TIIClnc得分高和TIIClnc得分低的患者之間的OS生存曲線。
圖6. 之后作者通過(guò)實(shí)驗(yàn)驗(yàn)證進(jìn)一步證明了分析的準(zhǔn)確性。
A.散點(diǎn)圖顯示了湘雅內(nèi)部數(shù)據(jù)集中TIIClnc signature評(píng)分與CD8、PD-1、PD-L1之間的相關(guān)性。
B. Box圖顯示湘雅內(nèi)部數(shù)據(jù)集中兩個(gè)TIIClnc signature評(píng)分組之間基于IHC染色的CD8、PD-1和PD-L1的h評(píng)分水平。h評(píng)分用強(qiáng)度評(píng)分*數(shù)量評(píng)分計(jì)算。強(qiáng)度得分為0、1、2、3,分別為負(fù)、弱、中、強(qiáng)。數(shù)量得分0、1、2、3、4分別代表10%、10-25%、25-50%、50-75%、75%染色細(xì)胞的比例。H-score的取值范圍為0 ~ 12。
C.湘雅內(nèi)部數(shù)據(jù)集中兩個(gè)TIIClnc signature評(píng)分組中CD8、PD-1和PD-L1的代表性IHC染色圖像。
圖7.湘雅內(nèi)部數(shù)據(jù)集中TIIClnc signature的功能注釋,對(duì) signature進(jìn)行功能學(xué)分析,是文章與臨床更巧妙的結(jié)合起來(lái)。
A.兩組TIIClnc signature評(píng)分組癌癥免疫周期差異的方框圖。
B.基于GO和KEGG項(xiàng)的gsa顯示TIIClnc標(biāo)志評(píng)分與代謝通路、免疫相關(guān)通路的相關(guān)性蝴蝶圖。免疫圖雷達(dá)圖顯示了
C. Kobayashi和D. Bagaev開(kāi)發(fā)的TIIClnc signature評(píng)分和TIME signature之間的相關(guān)性。
E. GSEA的GO 富集中TIIClnc signature分?jǐn)?shù)。
F. GSEA的KEGG富集中TIIClnc signature得分。
文章小結(jié):
研究者基于豐富的機(jī)器學(xué)習(xí)算法對(duì)純化的免疫細(xì)胞、LGG細(xì)胞系和大量LGG組織的測(cè)序數(shù)據(jù)進(jìn)行綜合分析,開(kāi)發(fā)出一種穩(wěn)定、魯棒的TIIClnc signature來(lái)分層LGG患者和預(yù)測(cè)免疫治療的結(jié)果。其中的機(jī)器學(xué)習(xí)方法很值得我們借鑒。