基因家族分析是癌癥分析中的重要組成部分,也是對生信小白而言是比較友好便捷的入手點之一,上手簡單快速,易學易懂。今天小編想和大家分享的正是一篇比較經(jīng)典全面的家族基因分析文章,思路清晰明了,于今年1月底發(fā)表在Frontiers in Immunology(現(xiàn)影響因子:7.5607,2021年預測IF:8.048)。另外,小編還會在文末傾情貢獻自己珍藏多年的基因家族分析流程咯,感興趣的小伙伴千萬不要錯過哦~
Histone Acetylation RegulatorMediated Acetylation Patterns Define Tumor Malignant Pathways and Tumor Microenvironment in Hepatocellular Carcinoma
肝細胞癌中組蛋白乙?;{節(jié)因子介導的乙酰化模式定義腫瘤惡性通路和腫瘤微環(huán)境
組蛋白乙?;揎検亲畛R姷谋碛^遺傳學修飾方法之一,可以用于調節(jié)染色質結構、DNA修復和基因表達。現(xiàn)有的研究主要集中在組蛋白乙?;谀[瘤發(fā)生、腫瘤進展和腫瘤微環(huán)境(TME)中發(fā)揮的重要作用,但尚未探討組蛋白乙酰化調節(jié)因子在TME細胞浸潤、藥物敏感性和免疫治療中的潛在作用和相互作用。本文基于組蛋白乙酰化調節(jié)因子的mRNA表達計算HAscore,確定三種組蛋白乙?;J郊跋鄳颊?。三組患者在生存時間,免疫浸潤,藥物敏感性等多方面存在差異。
1.數(shù)據(jù)
研究隊列:該研究共納入TCGA-LIHC、ICGC-LIRI(日本)、ICGC-LICA(法國)、GSE14520等9套肝癌數(shù)據(jù),涉及多達1599例肝癌患者的表達數(shù)據(jù)以及生存相關數(shù)據(jù)等進行進一步分析。
研究對象:其次,研究者檢索組蛋白乙?;揎椣嚓P文獻,對36個公認的組蛋白乙?;蜻M行整理和分析,以確定不同的組蛋白乙?;揎椖J?,其中包括9個writer,12個eraser, 15個reader(圖1A)。
2.組蛋白乙?;{節(jié)因子在HCC中的遺傳和轉錄改變
富集分析表明36個基因主要與組蛋白修飾和癌癥相關通路有關(圖1B)。為確定HCC中組蛋白乙?;{節(jié)因子的基因改變,研究者首先對36個組蛋白乙酰化調節(jié)因子的非沉默突變和拷貝數(shù)變異(CNVs)的landscape進行分析。在TCGA的HCC隊列中,364個樣本中有95個(26.1%)存在組蛋白乙?;{節(jié)因子的基因改變,主要涉及錯義突變和剪接位點突變(圖1C)。此外,發(fā)現(xiàn)CNV,尤其是CNV擴增在這些調控因子中廣泛存在(圖1D)。為確定這些基因變異是否會對HCC患者組蛋白乙?;{節(jié)因子的表達造成影響,研究者進一步比較正常和HCC樣本中這些調節(jié)因子的mRNA表達(圖1E)。結果顯示,CNV的變化對組蛋白乙?;{節(jié)因子的表達起著重要的調控作用。此外,根據(jù)這36個調控因子的表達,研究者基于無監(jiān)督一致性聚類對HCC樣本和正常樣本進行區(qū)分(圖1F)。
圖1. HCC中組蛋白乙?;{節(jié)因子的基因改變
3.基于36個調節(jié)因子確定與臨床特征相關的組蛋白乙?;J?/strong>
研究者共獲取來自TCGA-LIHC、ICGCLIRI(日本)、ICGC-LICA(法國)等9個數(shù)據(jù)集的1599個HCC樣本的臨床數(shù)據(jù)和mRNA表達矩陣,以進一步分析36個組蛋白乙?;{節(jié)因子的表達模式。為探討組蛋白乙酰化調節(jié)因子的預后價值和表達關系,研究者將具有預后信息的TCGA-LIHC和ICGC-LIRI隊列的mRNA測序數(shù)據(jù)整合到一個meta隊列中,并基于單因素Cox回歸識別與癌癥預后相關的調節(jié)因子。結果表明,HDAC2、HDAC1等多種調節(jié)因子與HCC預后有關(圖2A)。相關分析顯示36個調控因子的表達之間存在顯著的相關性??傊?,組蛋白乙酰化調節(jié)因子之間存在著緊密的相互交流,共同構成一個復雜的網(wǎng)絡,整體調控組蛋白乙酰化修飾,影響HCC的發(fā)展。
為確定36個調控因子的表達模式,研究者使用ConsensusClusterPlus對774例HCC樣本(TCGA-LIHC、ICGC-LIRI和ICGC-LICA隊列)的mRNA表達數(shù)據(jù)進行分類。通過無監(jiān)督聚類,研究者發(fā)現(xiàn)3組不同的組蛋白乙?;J剑℉Acluster_A,HAcluster_B,HAcluster_C)。在GEO meta隊列(GSE14520、GSE76427、GSE116174、GSE104580、GSE112790、GSE121248)中重復組蛋白乙?;垲悾梢缘玫较嗨频慕Y果。此外,主成分分析(PCA)顯示,三種不同的組蛋白乙酰化模式之間的轉錄譜存在顯著差異(圖2D)。在TCGA-LIHC和ICGC-LIRI隊列的聯(lián)合數(shù)據(jù)集中,HAcluster_B組患者的生存概率低于HAcluster_A和HAcluster_C組(圖2B)。GEO聯(lián)合數(shù)據(jù)中可以得到類似結果(圖2C)。與HAcluster_C和HAcluster_A相比,HAcluster_B中的組蛋白調節(jié)因子表達升高(圖2E),表面HAcluster_B患者組蛋白乙酰化修飾最活躍,且修飾周期快。這可能是肝癌患者預后的一個危險因素。此外,HAcluster與HCC的臨床特征密切相關。在TCGA HCC隊列中,HAcluster_B顯著富集病毒感染事件、血管浸潤、高TNM分級和高組織學分級(圖2E)。
圖2.組蛋白乙?;揎椖J郊捌渑R床特征
4.組蛋白乙?;J脚c腫瘤分子背景和免疫浸潤相關
為進一步確定三種組蛋白乙?;揎椖J皆谏飳W功能上的差異,研究者基于KEGG基因集進行GSVA富集分析。與HAcluster_A和HAcluster_C相比,HAcluster_B富集于致癌激活,細胞周期和凋亡等通路,HAcluster_A和HAcluster_C在幾個與生物代謝相關的通路中富集(圖3A、B)。研究者根據(jù)另一研究中獲得的致瘤特征數(shù)據(jù)進行GSVA富集分析,同樣證實HAcluster_B在大多數(shù)惡性通路中富集(圖3C)。此外,HAcluster_B中血管生成、EMT和癌干性的活性也相對較高(圖3C)。
研究者進一步對組蛋白乙?;{節(jié)因子與TME之間關聯(lián)進行全面研究,首先基于ssGSEA算法來量化浸潤TME的免疫細胞的相對豐度。Spearman相關分析顯示,調節(jié)因子與TME浸潤免疫細胞有很強的相關性(圖3D)。此外,還分析三種組蛋白乙?;J较耇ME細胞浸潤的差異(圖3E)。HAcluster_B中被激活的樹突狀細胞和漿細胞樣樹突狀細胞,自然殺傷細胞等數(shù)量較高,激活的CD8 T細胞以及其他重要的腫瘤殺傷細胞和gamma delta T細胞含量較低。以上結果表明,HAcluster_B是一種免疫抑制亞型,其免疫抑制細胞的活躍抵消高度激活的抗原抵制細胞的積極影響,導致HAcluster_B患者預后不良。為證實這一假設,研究者基于Bindea和Thorsson等人的相關基因特征數(shù)據(jù),分析三種組蛋白乙酰化模式中的免疫抑制活性、免疫溶細胞效應和抗原呈遞活性的變化。結果顯示,HAcluster_B的免疫抑制和抗原加工活性最高,而HAcluster_B的免疫溶細胞活性最低,與之前的分析一致(圖3F)。
圖3.組蛋白乙?;J降纳飳W特征
5.個體化肝癌組蛋白乙?;哪P蜆嫿?/strong>
為全面了解三種HAculsters之間的生物學特征差異,基于之前在RNA-seq meta隊列中分析的三個HAcluster,研究者確定591個與患者預后顯著相關的DEGs來表征HAcluster。這些DEGs的GO富集表明,它們主要與組蛋白乙?;?、細胞周期等過程相關(圖4A)。研究者發(fā)現(xiàn),根據(jù)這些DEGs可將患者聚為3個表型相關的亞型,分別為geneCluster_A、geneCluster_B和geneCluster_C。大多數(shù)DEGs在geneCluster_B中高表達4B)。生存分析表面,geneCluster_b的患者預后最差(圖4C)。研究者基于這些表型相關的DEGs構建一個評分模型(組蛋白乙酰化評分,HAscore),首先采用無監(jiān)督聚類方法對預后相關DEGs進行分析,將患者分為若干組進行進一步分析。采用一致性聚類算法確定基因聚類的數(shù)量及其穩(wěn)定性,并將這些基因的表達轉化為Z評分,并進行主成分分析(PCA)構建修飾的乙?;嚓P基因特征。選取主成分1和主成分2(分別為PC1和PC2)作為特征分數(shù)。
研究者發(fā)現(xiàn)HAscore與組蛋白乙?;{節(jié)因子和表型相關DEGs的mRNA表達呈正相關。HAcluster_B和geneCluster_B的HAscore最高(圖4D, E)。
接下來,研究者使用Survminer包將患者分為高HAscore和低HAscore組,并基于頻率分布直方圖對不同分類結果進行重疊分析。結果表明,高HAscore組樣本均來自于geneCluster_B(204個樣本中172個,占84.3%),geneCluster A和geneCluster_C中大部分患者是低HAscore組的主要組成部分(圖4G)。以上結果表明,這三種分類計算方法具有較高的一致性。低HAscores的患者生存時間更長(圖4F,4H),并且包含年齡,性別等臨床特征相關的多因素cox回歸分析表明在TCGA-LIHC和GSE14520隊列中,HAscore是一個穩(wěn)健的、獨立的預后生物標志物(圖4I)。
圖4.個體化肝癌組蛋白乙酰化的模型構建
6.臨床特征、分子特征和與HAscore相關的TME浸潤細胞
研究者進一步探索導致不同HAscore組之間出現(xiàn)預后差異的潛在機制。首先,對HAscore與臨床特征、分子特征和TME等特征之間的關系進行分析。首先探究HAscore與臨床特征的相關性,如圖5A,B所示,HAscore較高與AFP高表達、血管浸潤、病毒感染等HCC預后危險因素相關,進一步表明高HAscore患者的生存預后較差。
另外,除NRF2信號通路外,幾乎所有與癌癥相關的惡性通路(如細胞周期、HIPPO等)均與HAscore顯著正相關(圖5C)。HAscore與腫瘤浸潤免疫細胞、免疫功能的相關性分析表明HAscore與免疫抑制活性的細胞呈顯著正相關,與免疫溶細胞活性呈負相關(圖5C-D),說明HAscore與TME密切相關,高HAscore組被認為是免疫抑制亞型。
圖5.不同HAscore組的臨床特征、分子特征和TME浸潤
7.HAscore與抗腫瘤藥物敏感性
組蛋白乙?;揎椗c腫瘤的功能通路密切相關,HAscore在預測患者相關藥物響應方面具有潛在價值。為驗證這一假設,研究者使用GDSC數(shù)據(jù)庫評估了癌細胞系中HAscore和藥物反應之間的關系。基于Spearman相關分析,研究者發(fā)現(xiàn)西妥昔單抗等42種藥物在低HAscores的細胞系中更敏感,HDAC6抑制劑ACY-1215 等74種藥物則在HAscores高的樣本中可能更敏感(圖6A)。研究者進一步分析這些藥物靶向基因的信號通路,在高HAscores樣本中敏感的藥物主要針對組蛋白乙酰化、有絲分裂、細胞周期和DNA復制等過程。與之前的分析一致,即大多數(shù)組蛋白修飾調控因子,細胞周期和DNA復制相關活性在高HAscore組中活躍。此外,在低HAscores樣本中敏感的藥物主要針對MEK2和RTK信號通路(圖6B)。
為檢驗HAscore是否可以預測患者的藥物反應,研究者基于幾個使用相關抗腫瘤藥物治療的數(shù)據(jù)集,分析藥物反應與HAscore之間的關系。在GSE5851數(shù)據(jù)集中,對晚期轉移性結直腸癌患者進行西妥昔單抗單藥治療的分析顯示,有應答者的HAscore顯著低于無應答者(圖6C)。低HAscore組的無進展生存期(PFS)明顯長于高HAscore組(圖6D)。HAscore藥物敏感性相關ROC曲線的AUC為0.691(圖6E)。這些結果與在低HAscore組西妥昔單抗的敏感性更高的發(fā)現(xiàn)一致。此外,在GSE22219數(shù)據(jù)集中,對環(huán)磷酰胺、甲氨喋呤和5-氟尿嘧啶方案治療乳腺癌患者的分析顯示,高HAscores患者的無進展生存期明顯更長(圖6F)。
基于GSE148623數(shù)據(jù)集的分析顯示,對HDACi有響應者的HAscore更高,高HAscore患者的PFS更長(圖6G, H)??傊?,這些分析表明HAscore在預測患者藥物反應方面具有潛在價值。
圖6.HAscore與藥物響應
8.HAscore與PD-L1或PD-1免疫治療
HAscore與TME密切相關,研究者基于兩個免疫療法隊列檢測HAscore預測患者對ICI治療響應的能力。首先,基于TCGA-ICGC和GEO隊列,分析HAscore和TIDE之間的關系。結果表明,高HAscore組的TIDE得分均顯著較高(圖7A、B),且HAscore與TIDE評分呈正相關。此外,HAscore與MDSC浸潤顯著正相關,表明高HAscore組是一種免疫抑制亞型。此外,對抗PD-L1免疫治療樣本的分析顯示,HAscore低的患者獲益更多,生存時間更長(圖7C)??筆D-L1阻斷劑完全緩解(CR)或部分緩解(PR)的患者比例在低HAscore組為27%,而在高HAscore組僅為13%(圖7D)。圖7E、F顯示,低HAscore組的新抗原負荷和突變負荷較高(P = 0.00022;P = 0.012),低HAscore組的TIDE評分較低。這與TIDE評分低的患者似乎從IBI治療中獲得更多臨床益處的發(fā)現(xiàn)一致。以上結果表明,低HAscores的患者在ICI治療中可以獲得更大的生存優(yōu)勢和臨床益處。
圖7.HAscore與免疫治療
今天的文章內容大概就是這些,是不是思路超級清晰呢?還沒完全消化吸收的小伙伴也不要怕,今天的干貨,干貨,干貨終于來啦?。?!小編珍藏多年的基因家族分析思路傾情獻上,說能發(fā)個nature,science那純粹是吹牛,但只要內容嚴謹,寫作能力優(yōu)秀,思路,內容再稍微出彩,有新意一點,發(fā)個7,8分的文章還是有很大可能的。如果有能力的話,再與臨床和實驗一結合,10分也不是沒有可能滴~
在做家族基因分析時,我們的首要任務是選好研究主題,只有主題有新意,有創(chuàng)意才能先人一步吸引到審稿人的目光。至于具體選擇,不論是最近火熱的鐵死亡,自噬,衰老,DNA損傷修復還是免疫相關基因,完全取決于你和你想要研究的癌型的特點。
1.基因landscape:展示基因在相應癌癥中的突變,拷貝數(shù)改變,差異表達,差異甲基化等,說明該家族基因與某癌癥形成發(fā)展高度相關。
2.基因篩選:在家族基因過多或分類效能不足時對基因進行篩選,獲取最佳基因集合。篩選方法主要包括:
a.差異分析(正常 vs 癌癥;突變 vs 野生等)。
b.預后分析(高表達 vs 低表達;突變 vs 野生;拷貝數(shù)改變 vs 拷貝數(shù)不改變;單因素cox分析等)。
c.相關分析:與其他基因表達,免疫細胞浸潤特征,與藥物響應等的的相關性分析。
d.其他(變異系數(shù)等)。
3.模型構建:基于篩選出的特征基因構建分類模型。分類方法主要包括簡單的多因素cox回歸分析,lasso cox回歸分析,特征基因表達一致性聚類,主成分分析,以及難度較高的神經(jīng)網(wǎng)絡,深度學習等。
4.模型評估:評估模型的分類效能。
a.預測性能評估:獨立數(shù)據(jù)集驗證,AUC(ROC曲線下與坐標軸圍成的面積),C-index指數(shù),與已知預后模型的比較。
b.獨立性評估:多因素cox回歸分析判斷預測模型是否獨立于性別,年齡等臨床特征。
5.不同分子亞型的比較:基因表達,通路活性,TP53突變,免疫細胞浸潤比例,免疫得分,HRD打分等預后特征。
6.列線圖模型的建立和驗證。
7.亞型與藥物響應:將組織中分類模型應用到細胞系或其他用藥數(shù)據(jù)中,評估不同類別與藥物響應之間的關系。
8.結合實驗或者自測數(shù)據(jù)對自己的結果進行驗證。
9.其他:在以上基礎上,可以適當利用單細胞分析,ATAC-seq分析等進一步充實文章內容,補充實驗結果。
家族基因分析的流程大概就是這些,小編也會在文末中添加兩篇基因家族分析相關的文章,感興趣的小伙伴可以去自行閱讀學習哦~
同學們完全可以在自己的分析過程中對以上步驟進行自由選擇,隨機組合,取你所想,用你所需。但切記不要照本宣科,千篇一律,但也不要內容堆砌,我們要在保證研究完整,嚴謹?shù)耐瑫r,在最需要的地方做最合適的分析。
思路易得,但研究更需要創(chuàng)新和新意,如何能讓“平平無奇”的基因家族分析變得更有靈魂和思想是我們每個生信從業(yè)者都要面對和解決的難題之一。遺憾的是,小編暫時能想到的只有以下這幾點:首先是寄希望于一些小眾或者最新發(fā)現(xiàn)的基因,試圖在大家走火熱研究思路的同時,開辟一條不一樣的道路;其次是改進自己的模型構建方法,深入研究算法,提升效能;最后一點就是和實驗和臨床結合,讓實驗充分證實自己的結果,但是這個對于實力和財力都有著不小的要求。以上就是我的一點小小看法,肯定有不合適或者偏頗的地方,在這里也希望評論區(qū)的小伙伴們能多多留言,大家一起開拓思路,尋找答案。
參考文獻:
Histone Acetylation RegulatorMediated Acetylation Patterns Define Tumor Malignant Pathways and Tumor Microenvironment in Hepatocellular Carcinoma
其他基因家族分析相關文章:
1.A Novel Ferroptosis-Associated Gene Signature to Predict Prognosis in Patients with Uveal Melanoma
首先基于單因素cox分析識別出與TCGA中UM患者預后相關的鐵死亡基因,接著通過LASSO Cox回歸模型構建鐵死亡相關基因的預后特征,進而在獨立數(shù)據(jù)集中進行驗證。最后還對鐵死亡相關基因風險評分與UM常見拷貝數(shù)改變,自噬和免疫浸潤之間關聯(lián)進行分析。
2.Glioma-Associated Stromal Cells Stimulate Glioma Malignancy by Regulating the Tumor Immune Microenvironment
研究者基于TCGA和CGGA中膠質瘤數(shù)據(jù)集,利用單樣本基因集合富集分析(ssGSEA)算法根據(jù)膠質瘤基質細胞(GASC)含量對患者進行分型。基于xCELL和CIBERSORT算法分析基質細胞和免疫細胞的組成并建立神經(jīng)膠質瘤的風險評分和nomogram預后預測模型。