腫瘤分型一直是癌癥研究的一個經(jīng)典方向,今天小編要和大家分享一篇今年九月剛剛發(fā)表在Briefings in bioinformatics(IF:11.620)雜志上的HCC分型文章,文章基于腫瘤和非腫瘤組織中免疫及hallmark基因集的活性變化使用非負矩陣分解(NMF)的方法識別HCC亞型。純生信分型發(fā)了11分,小伙伴們get起來吧。
HCC subtypes based on the activity changes of immunologic and hallmark gene sets in tumor and nontumor tissues
基于腫瘤和非腫瘤組織中免疫及hallmark基因集的活性變化的HCC亞型
一.研究背景
目前肝細胞癌(HCC)是最常見的肝癌類型之一,是全球第四大癌癥相關死亡原因,且患者相鄰非腫瘤組織的預后作用尚不清楚。而在HCC肝切除術等治療措施后,鄰近非腫瘤組織中免疫和hallmark基因集的活性變化可能通過影響肝細胞的增殖和循環(huán)腫瘤細胞的定植而顯著影響預后。因此作者通過腫瘤和非腫瘤組織中基因集的活性變化確定HCC亞型和預后基因集,希望能夠改善患者預后。
二.數(shù)據(jù)及方法
1. 數(shù)據(jù)收集:作者從GEO數(shù)據(jù)庫下載了配對的腫瘤組織及癌旁組織的基因表達數(shù)據(jù)(GSE14520,GSE76427),并按照HCC組織和癌旁非腫瘤組織的樣本量均大于等于50的標準選擇合格的基因表達譜數(shù)據(jù)。此外,作者從基因集富集分析(GSEA)中下載4922個免疫和hallmark基因集。
2. 基因集變異分析及功能富集分析:基因集變異分析(GSVA)可以估計一個感興趣的基因集相對于樣本群體的富集程度,作者用于觀察與特定生物條件相對應的一組基因(如通路)的活性變化。作者也通過clusterProfiler R包進行分子功能(MF)分析和Reactome通路分析。
3. 熱圖及分類:文章使用ComplexHeatmap包和CancerSubtypes包分析HCC樣本的熱圖和分類。
4. 非負矩陣分解(NMF):非負矩陣分解是一種有效的降維方法,被廣泛應用于高維基因組數(shù)據(jù)的分子模式識別,并為類發(fā)現(xiàn)提供了強有力的方法。研究中作者應用NMF包對癌癥基因組數(shù)據(jù)進行NMF。
5. 預后分析:作者采用LASSO回歸方法尋找潛在的預后基因集。
三.研究的主要內(nèi)容及結果
1. 肝癌和癌旁非腫瘤樣本中免疫和hallmark基因的活性變化
在文章第一部分作者分析了肝癌和癌旁非腫瘤樣本中免疫和hallmark基因的活性變化。GSVA可用于檢測整個基因表達集中細微的通路活性變化。因此作者為了全面揭示HCC和鄰近非腫瘤樣本中免疫和hallmark基因集的活性變化,從GSEA和基因表達譜數(shù)據(jù)(GSE14520)下載了4922個免疫和hallmark基因集,研究的流程如圖1所示。其中免疫基因集是由來自免疫學研究的芯片基因表達數(shù)據(jù)定義的,而hallmark基因集是由多個表示明確定義的生物狀態(tài)或過程的MSigDB基因集聚合而來的一致表達的特征。接著作者也根據(jù)GSE14520的表達數(shù)據(jù),通過GSVA計算4922個基因集的富集評分(ES)(圖2)。結果發(fā)現(xiàn)在HCC和鄰近的非腫瘤組織中,出現(xiàn)了多個基因集將樣本分成若干類。接著作者試圖基于肝細胞癌和鄰近非腫瘤樣本的免疫和hallmark基因集的ESs,將肝細胞癌患者分為不同的亞型。其中有四個樣本的預后信息不完整而被移除。作者使用Cox回歸模型通過CancerSubtypes包進行特征選擇,保留999個特征供進一步分析。接下來作者使用factoextra包生成最佳簇數(shù)(K) (K = 3,圖3A和B)。 進一步的作者使用NMF方法將HCC患者聚類為三個不同的亞型(圖3C)。圖3D表明與其他亞型相比,HCC樣本與其確定的亞型之間匹配良好。同時亞型1的HCC患者總生存期較好,而亞型2和亞型3的預后較差(圖3E)。
2. 臨床特征與HCC亞型的相關性
在這一部分作者進一步探討了臨床特征與HCC亞型的相關性。結果發(fā)現(xiàn)與亞型2和亞型3相比,亞型1的肝癌患者生存時間更長,復發(fā)率更低(圖4A和表1)。接著為了確定每個子類型的代表性基因集,作者計算了每個子類之間基因集的差異ES并將它們交叉。在圖4B中可以觀察到亞型1有12個不同的基因集,亞型2有59個,亞型3有22個。而代表性基因集與臨床特征的相關性如圖5所示:亞型1在非腫瘤樣本中9個基因集的ESs均高于其他亞型,亞型2在非腫瘤樣本中某些基因組的ESs也較高。與這兩種亞型相反,亞型3在腫瘤組織中有18個基因集ES增加了。由于包含配對腫瘤和非腫瘤樣本表達及臨床信息的數(shù)據(jù)集太小,作者選擇另一個不同的基因表達譜數(shù)據(jù)來驗證分類。在GSE14520數(shù)據(jù)中,亞型2和亞型3的死亡比例沒有太大差異(表1),Kaplan-Meier分析也顯示亞型2和亞型3的預后都相對較差(圖3E)??紤]到驗證組樣本量小,作者從樣本中分離出亞型1,其他樣本定義為亞型2/3。通過生存分析,驗證組中亞型1的HCC患者也傾向于生存更好。接下來作者試圖用LASSO方法確定肝癌的預后基因集,最終發(fā)現(xiàn)了7個基因集(圖6A和B),其中4個基因集位于非腫瘤組織,3個位于腫瘤組織。且每個基因組的ESs越高,總生存時間越短(圖6)。
3. 功能和通路富集分析
在一部分作者為了明確這7個預后基因集對預后的作用機制,提取了每個基因集所包含的基因,并在腫瘤和非腫瘤組織中進行MF富集和Reactome通路分析。對于非腫瘤樣本,基因集主要與細胞粘附分子結合、細胞因子活性、白細胞介素信號轉導、血小板激活等相關(圖7A)。作者推測這些功能在非腫瘤組織中可能通過促進腫瘤細胞定植和存活而影響預后。在腫瘤樣本中,基因集富集到微管蛋白結合、組蛋白激酶活性、細胞周期檢查點、有絲分裂前期和有絲分裂后期等相關過程(圖7B)。這些結果與細胞周期密切相關,可能促進腫瘤的發(fā)展。接下來作者進一步識別了非腫瘤和腫瘤基因集中的hub基因,構建蛋白-蛋白相互作用網(wǎng)絡,并將結果進一步分析。作者通過 Cytoscape MCODE插件計算出前三的類,并通過度計算出每個類中的hub基因。結果發(fā)現(xiàn)非腫瘤基因集中,類1的前3個hub基因為CXCL8、CXCL9和CCR5,主要與免疫反應相關;類2為ICAM1、ITGAM和IL1B,與細胞粘附密切相關;類3為FBXO7、UBA6和SH3RF1,主要與泛素激活相關(圖8A)。腫瘤基因集中,類1的hub基因為MELK, CCNB1 及 CDCA8主要與細胞周期有關;類2為PWP2, NLE1和KIAA0020與核糖體密切相關;而類3 為EFTUD2, SRSF1 及HNRNPM 主要與mRNA剪接有關(圖8B)。
到這里這篇文章的主要內(nèi)容就介紹完了。文章主要使用NMF方法對HCC進行分型,可以看出文章的算法并不復雜,但文章的思路清晰,能夠?qū)⒛[瘤和非腫瘤樣本結合,針對免疫基因集和hallmark基因集進行分型,最終成就了11+的工作。感興趣的小伙伴可以學習下文章的思路和方法以及寫作邏輯。