在癌癥相關的研究中,預后分析是主要研究角度之一,也以一個熱點發(fā)文方向。生信人也推出過很多關于建立預后模型的文章,其中包括熱點的鐵死亡預后模型、自噬預后模型、缺氧預后模型、免疫相關預后模型等。這些文章多數都以相關基因為焦點,構建預后模型,今天小編再和大家分享一篇今年六月剛剛發(fā)表在Frontiers in Immunology(IF:8.786)雜志上的關于肝癌免疫相關預后的純生信文章。文章主要方法包括差異表達、單因素及多因素cox分析、LASSO分析及功能富集分析等經典的生物信息方法。然而,不同于多數預后分析,文章在細胞的水平構建預后模型思路比較新穎,同時結合了單細胞水平的分析起到了錦上添花的效果。文章方法不難,但研究角度很好,感興趣的小伙伴不要錯過呀。
Identification of the Immune Subtype of Hepatocellular Carcinoma for the Prediction of Disease-Free Survival Time and Prevention of Recurrence by Integrated Analysis of Bulk- and Single-Cell RNA Sequencing Data
整合組織和單細胞數據識別能夠預測肝癌無病生存期和預防復發(fā)的免疫亞型
一.研究背景
肝癌是導致癌癥相關死亡的第三大原因,也是全球男性癌癥相關死亡的第二大原因,其中肝癌最常見的形勢就是肝細胞癌(HCC)。盡管近年來肝癌的治療取得了很大的進展,但由于缺乏早期診斷標志物、手術后早期復發(fā)、化療或分子靶向治療耐藥等問題的存在,肝癌的預后仍不理想,且現有的治療方法對晚期HCC患者的治療效果非常有限。因此,識別敏感的早期診斷標志物和無病生存(DFS)期的預測因子,以及預防復發(fā)的可靠靶點就顯得尤為重要,這將極大地改善HCC患者的DFS時間和臨床結局。
二.文章摘要
該研究采用單樣本基因集富集分析(ssGSEA)評估HCC樣本中的免疫細胞豐度,同時采用LASSO及單因素和多因素Cox分析評估免疫細胞對DFS時間預測的預后價值。然后,根據最具預后性的免疫細胞及其相應系數構建風險評分。通過單細胞RNA (scRNA)測序數據和CellMiner進一步識別了具有預后作用的免疫細胞和預防復發(fā)的特定靶點之間的相互作用。最終基于三種最具預后價值的免疫細胞類型的數據,構建了一種效應T細胞風險評分(TCRS),用于識別DFS時間更長和具有炎癥免疫特征的HCC患者免疫亞型。文章也明確TCRS得分高、低組之間的功能差異,并闡明了免疫細胞之間的細胞通訊。此外,文章也識別了15個預防復發(fā)的潛在治療靶點。
三.數據及方法
1. 數據收集及處理:作者從TCGA數據庫下載了371例原發(fā)性HCC患者的生存信息和基因表達數據。此外,從NODE數據庫中下載了159例HCC患者的基因表達數據和生存信息作為驗證隊列1,作者也從GEO數據庫中下載了包括242例HCC患者表達數據的數據集GSE14520作為驗證隊列2。研究將術后隨訪復發(fā)的患者定義為復發(fā),反之定義為無病,將手術到疾病復發(fā)或最后一次隨訪的時間定義為DFS時間。
2. TCRS的構建與評估:文章使用ESTIMATE計算HCC樣本的免疫評分、ESTIMATE評分、基質評分和腫瘤純度,用單樣本基因集富集分析(ssGSEA)方法計算HCC樣本中28個免疫細胞的豐度。接下來,作者使用LASSO和單因素及多因素Cox分析評估這28個免疫細胞對預測DFS的預后價值。最終基于最具預后價值的免疫細胞構建了效應T細胞風險評分(TCRS),并根據ggrisk包中roc方法計算TCRS的最優(yōu)截斷值,將各隊列HCC患者分為高、低評分組,進而比較兩組患者的生存和免疫狀況。
3. GSVA和差異分析:作者在訓練隊列中,使用GSVA初步識別了高低分組之間的差異。然后,使用DESeq2識別高低分組之間的差異表達基因。隨后作者對差異基因進行GO及KEGG富集分析。
4. HCC患者的單細胞分析:研究共納入了12例原發(fā)性以及6例早期復發(fā)的HCC樣本的scRNA測序數據,作者分析了數據提供者注釋的T細胞簇的表達數據,并對數據進行了標準化和高變異基因的識別,在主成分分析(PCA)之后,利用UMAP分析進行降維。之后,通過“FindNeighbors”和“FindClusters”函數確定了15個T細胞亞群,每個亞群的顯著差異基因(DEGs)由“FindAllMarkers”函數識別。隨后,作者進行了細胞類型注釋,并使用CellChat確定細胞類型間通信。最后使用“Findmarker”方法檢測原發(fā)性肝癌細胞和復發(fā)肝癌細胞中相同類型免疫細胞的DEGs。
5. 評估scRNA數據識別DEGs的預后和免疫價值:文章采用單因素和多因素Cox分析免疫細胞間DEGs的預后價值,并使用LASSO進一步篩選。通過多變量Cox分析系數計算出基因風險評分(GRS)。訓練隊列中的HCC患者也根據“ggrisk”包中的“roc”法計算出GRS的最佳臨界值,將患者分為高、低評分組,比較兩組患者的生存和免疫狀況。最后,利用基于NCI-60細胞系的工具CellMiner篩選這些基因的潛在預防復發(fā)藥物。
四.研究的主要內容及結果
1. TCRS的構建與評價
在文章的第一部分作者首先介紹了研究的總體流程如圖1所示,接著作者經LASSO篩選及單因素和多因素Cox分析后(圖2A、B和表1),構建TCRS,并展示了高低得分組間的分組信息,效應記憶CD8 T細胞,調節(jié)性T細胞及輔助濾泡T細胞的豐度、DFS狀態(tài)(圖2C)。作者分析發(fā)現低評分組患者的DFS時間明顯長于高評分組(圖2C, D),同時作者計算了1年、3年和5年ROC。接下來,作者分析了兩組之間的免疫特征,結果發(fā)現低評分組的免疫評分、ESTIMATE評分和基質評分顯著高于高評分組(圖2E-G),而高評分組的腫瘤純度顯著高(圖2H)。此外,作者也觀察到28個免疫細胞的表達水平在低評分組中明顯升高(圖2I, J),并將其確定為DFS時間較長、具有炎癥免疫特征的HCC免疫亞型。
2. TCRS效果的外部驗證
在文章的第二部分作者為了進一步驗證TCRS的有效性,對兩個驗證隊列進行了分析。首先使用ssGSEA計算了28個免疫細胞的豐度,接著計算了TCRS,計算公式與訓練隊列相同。然后,根據兩個驗證隊列中TCRS的最佳臨界值,將HCC患者分為高分和低分組,并展示了兩組間的分組信息、DFS狀態(tài)以及效應記憶CD8 T細胞、調節(jié)性T細胞和輔助性T細胞的豐度(圖3A)。作者同樣發(fā)現在兩個驗證隊列中,低評分組患者的DFS時間明顯長于高評分組(圖3B)。其次,作者也發(fā)現驗證隊列中低得分組的免疫評分、ESTIMATE評分和基質評分顯著高于高得分組(圖3C-E),而高分組腫瘤純度明顯更高(圖3F)。此外,28個免疫細胞中大部分在低評分組也明顯高(圖3G, H),這些結果表明TCRS可以很好地識別HCC的免疫亞型,用于預測DFS時間。
3. TCRS分組間的差異分析
接下來作者為了明確高分組和低分組之間的功能差異,在訓練隊列中進行了差異分析。首先,通過GSVA來刻畫總體差異,如圖4A所示,差異最大的前10條功能通路多數與免疫相關,如自身免疫性疾病、IgA產生的腸道免疫網絡、抗原加工和呈遞等。接下來,作者通過火山圖(圖4B)對兩組之間的DEGs進行可視化,并選擇顯著的DEGs進行進一步的GO和KEGG分析,結果發(fā)現這些基因也顯著富集到與免疫相關的功能與通路中(圖4C,D)。這些結果初步確定了TCRS劃分的HCC患者風險評分組之間的功能差異,這些差異可能是延長DFS時間的潛在干預靶點。
4. 通過scRNA數據識別預防肝癌復發(fā)的特異靶點
作者在這一部分為了系統評估三種預后免疫細胞在HCC復發(fā)中的協同作用,對scRNA測序數據進行了分析。由于用于構建TCRS的免疫細胞均為T細胞,因此研究分析了原發(fā)性HCC中的5415個T細胞和復發(fā)HCC中的1879個T細胞,并識別出15個T細胞簇通過heatmap 顯示每個簇中最顯著的前5個DEG(圖5A, B)。接下來,根據marker基因(圖5C-E),將這些T細胞簇標記為三種細胞類型(效應記憶CD8 T細胞、濾泡輔助及調節(jié)性T細胞和其他細胞),并通過小提琴圖(圖5F)顯示每種細胞類型的特異性基因。不同T細胞亞群在每個樣本或不同腫瘤類型中的比例如圖5G所示。接著為了進一步闡明這些免疫細胞的整合作用,作者進行了細胞-細胞通信分析。這些細胞類型之間的相互作用如圖6A-B所示。此外,作者進一步研究了這三種細胞類型之間潛在信號,以及具體的分子對。結果如圖6C所示,可以觀察到效應記憶CD8 T細胞是主要的信號提供者,濾泡輔助及調節(jié)性T細胞是主要的信號受體。隨后,作者研究了這些細胞類型之間的具體信號對(圖6D, E)。這些結果初步闡明了這些細胞類型之間潛在的相互作用,有助于進一步研究效應記憶CD8 T細胞、調節(jié)性T細胞和濾泡輔助T細胞在預測DFS時間和預防HCC復發(fā)中的綜合作用。
5. 識別預防復發(fā)的特定靶點
在文章的最后一部分,作者為了進一步篩選可能與HCC復發(fā)相關的預后免疫細胞中的關鍵基因,利用scRNA數據識別原發(fā)性和復發(fā)性HCC之間的DEGs,結果在效應記憶CD8 T細胞和濾泡輔助及調節(jié)性T細胞中分別篩選出298和407個DEG,通過整合最終得到645個基因用于后續(xù)分。這些基因經cox及LASSO分析(圖7A, B),識別出15個預后基因,作者觀察到它們中大多數在高TCRS組中高表達。接下來,作者根據這15個預后相關基因的表達水平及其相關系數構建GRS ,并利用GRS的最優(yōu)截斷值定義這15個關鍵基因在高分組和低分組中的分群信息、DFS狀態(tài)和表達水平,生存分析結果也顯示,低評分組患者的DFS時間明顯長于高評分組(圖7C, D)。此外,作者分析免疫結果發(fā)現低GRS組也被識別為DFS時間較長、具有炎癥免疫特征的免疫亞型,這與TCRS的結果一致(圖7 E-J)。這些結果表明,這15個關鍵基因可能與免疫細胞影響DFS時間的過程有關,也可能是預防HCC復發(fā)的潛在靶點。最后,作者通過CellMiner初步篩選潛在的預防復發(fā)藥物如圖8所示。
到這里這篇文章的主要內容就介紹完了,文章結合組織及單細胞數據構建并驗證了一個預測肝癌術后DFS時間的模型。同時還識別出15個關鍵基因作為預防復發(fā)的候選基因,并對這些基因的潛在藥物進行了研究。有別于其他聚焦基因水平的預后文章,該研究以免疫細胞豐度為關注點,進行預后及分型分析,這種切入點也更容易結合單細胞數據進行更細致的解析刻畫,小編覺得是一個不錯的學習思路。