你是否還在為沒有自己的數(shù)據(jù)而發(fā)愁?是否還在為實驗驗證而為難?是否還在苦尋研究思路?今天小編就來給你分享一篇今年十月份發(fā)表在《frontiers in Cell and Developmental Biology》(IF:6.684)上的純生信文章。這篇文章既沒有自己測的數(shù)據(jù)也沒有加入實驗驗證,只是巧妙的將scRNA-seq和bulk RNA-seq數(shù)據(jù)相結(jié)合起來,看完這個,你會發(fā)現(xiàn)你也可以的!
結(jié)合bulk RNA-seq和scRNA-seq數(shù)據(jù)分析,鑒定和驗證基于惡性細(xì)胞亞群標(biāo)記的胃腺癌多基因風(fēng)險評分
背景
胃腺癌 (STAD) 是最常見的胃癌類型,也是第五大最常見的癌癥類型,是全球第三大致命癌癥。STAD患者的不良預(yù)后與多種因素相關(guān),包括有晚期臨床表現(xiàn)、遺傳異質(zhì)性和強(qiáng)耐藥性。根據(jù)不同的分類系統(tǒng)可將其分成不同的亞型,如根據(jù)Lauren分類系統(tǒng)可將STAD分為彌漫型(低分化)、腸型(高分化)和混合型三種亞型。在TCGA中則根據(jù)基因組特征將STAD劃分為四種亞型,分別是EBV陽性 (9%)、微衛(wèi)星不穩(wěn)定 (MSI) (22%)、基因組穩(wěn)定 (20%) 和染色體不穩(wěn)定 ( 50%)。腫瘤異質(zhì)性包括時間和空間上兩個層面,時間上的異質(zhì)性是指從腫瘤早期進(jìn)展到腫瘤晚期的異質(zhì)性,而空間上的異質(zhì)性則是指不同部位腫瘤的異質(zhì)性。結(jié)合scRNA-seq數(shù)據(jù)可以從單細(xì)胞層面更好的揭示腫瘤的異質(zhì)性。
數(shù)據(jù)來源和方法思路
1. 數(shù)據(jù)來源
Bulk RNA-seq:GEO數(shù)據(jù)庫中的四個數(shù)據(jù)集GSE66229、GSE113255、GSE84437 和 GSE26942;TCGA數(shù)據(jù)庫中的bulk RNA-seq數(shù)據(jù),包括375 個STAD和32個正常組織,即文中的TCGA-STAD。
ScRNA-seq:GEO數(shù)據(jù)庫中的GSE134520數(shù)據(jù)集。
2. 方法思路
全文研究思路大致可以分為三部部分,首先是通過對bulk RNA-seq數(shù)據(jù)的分析鑒定出胃腺癌中惡性細(xì)胞和非惡性細(xì)胞的標(biāo)記基因,然后就是利用標(biāo)記基因?qū)cRNA-seq數(shù)據(jù)中的細(xì)胞類型進(jìn)行分類,通過聚類分析得到不同的惡性細(xì)胞亞群,以篩選出不同惡性細(xì)胞亞群的標(biāo)記基因。最后又回歸到bulk RNA-seq數(shù)據(jù)的分析上,利用cox回歸構(gòu)建風(fēng)險預(yù)測模型,最后再利用數(shù)據(jù)集加以驗證。
結(jié)果
1. 鑒定惡性細(xì)胞和非惡性細(xì)胞標(biāo)志基因
本文首先是對所收集的三個bulk RNA-seq數(shù)據(jù)集分別做差異分析,圖2A-C中分別展示了這三個數(shù)據(jù)集中差異基因的整體情況。具體而言,就是在GSE66229數(shù)據(jù)集中,共鑒定出14224個DEG,其中有7799個基因上調(diào)和6425個基因下調(diào)。在GSE113255中,共鑒定了8669個DEG,上調(diào)基因為7473個,下調(diào)基因為1196個。在TCGA-STAD中,共鑒定出13353個DEG,上調(diào)基因和下調(diào)基因分別為 7077個和6276個。對這些差異基因按上調(diào)和下調(diào)分組分別取交集,發(fā)現(xiàn)這三個數(shù)據(jù)集中的上調(diào)基因和下調(diào)基因存在很大的差異(圖2D-E),所以必須篩選出在大部分樣本中都穩(wěn)定差異表達(dá)的基因才能作為標(biāo)記基因用于后續(xù)分析。簡而言之,研究人員首先根據(jù)單個數(shù)據(jù)集中的log2(倍數(shù)變化)對DEG進(jìn)行排序,然后對三個排序后的列表進(jìn)行綜合排序,最后根據(jù)p值排序,將前 50個顯著上調(diào)的基因視為惡性細(xì)胞標(biāo)志基因,將前50個顯著下調(diào)的基因視為非惡性細(xì)胞標(biāo)志基因。圖2F-H中的三個熱圖分別展示了這100個基因在三個數(shù)據(jù)集的腫瘤和正常樣本中的差異表達(dá)情況。
此外,對三個數(shù)據(jù)集中的上調(diào)和下調(diào)基因的交集進(jìn)行KEGG分析發(fā)現(xiàn),上調(diào)基因所富集的通路主要包括細(xì)胞周期、p53信號通路等,而下調(diào)基因所富集的通路主要是氧化物酶體增殖物激活受體 (PPAR) 信號通路、胃酸分泌和 AMPK 信號通路(圖2I-J)。
2. 早期胃腺癌的腫瘤異質(zhì)性
根據(jù)前面所篩選出的惡性細(xì)胞及非惡性細(xì)胞的標(biāo)記基因,可進(jìn)一步利用胃腺癌的scRNA-seq數(shù)據(jù)進(jìn)行腫瘤異質(zhì)性分析。通過軟件包SCINA在3771個質(zhì)控合格后的細(xì)胞中共鑒定出了2506個惡性細(xì)胞、63個非惡性細(xì)胞以及1202個未知類型細(xì)胞(圖3A)。但基于前文中所鑒定的100個標(biāo)記基因?qū)@些細(xì)胞進(jìn)行PCA分析,發(fā)現(xiàn)這三類細(xì)胞并不能被很好的分開(圖3B)。于是研究人員單獨將其中2506個惡性細(xì)胞進(jìn)行亞群聚類,以便進(jìn)行后續(xù)分析,聚類后一共得到9個細(xì)胞亞群(圖3C),圖3D中展示了前5個標(biāo)記基因在這9個亞群中的表達(dá)情況。
惡性腫瘤中具有高度異質(zhì)性的細(xì)胞群,研究不同細(xì)胞群中的分化軌跡和相應(yīng)基因可能有助于闡明癌癥發(fā)展的分子機(jī)制。研究人員通過Monocle R包對惡性細(xì)胞進(jìn)行擬時間分析,發(fā)現(xiàn)其分化軌跡包括七種狀態(tài)(圖4A)。圖4B中展示了分支表達(dá)分析模型 (BEAM) 中前100個顯著差異表達(dá)的基因熱圖。
現(xiàn)在我們已知惡性細(xì)胞中包含有九個細(xì)胞亞群,那這九個細(xì)胞亞群之間又存在什么區(qū)別和聯(lián)系呢?研究人員接著通過GSEA分析闡明了這九個細(xì)胞亞群之間的功能差異性。比如細(xì)胞cluster0中顯著富集PI3K/AKT/MTOR信號和氧化磷酸化,而cluster1似乎具有更強(qiáng)的蛋白分泌能力,因為這類細(xì)胞顯著富集出了蛋白分泌相關(guān)標(biāo)記基因;Cluster2的下調(diào)基因與G2M檢查點、E2F靶標(biāo)等相關(guān),cluster3可能與DNA修復(fù)相關(guān)。胰腺β細(xì)胞的標(biāo)記基因、通過核因子κβ的腫瘤壞死因子α信號、炎癥反應(yīng)和同種異體移植排斥的顯著富集分別出現(xiàn)在了cluster5、6、7和8中。結(jié)合擬時間分析,結(jié)果發(fā)現(xiàn)腫瘤內(nèi)異質(zhì)性出現(xiàn)在STAD的早期階段,可能是耐藥性產(chǎn)生的原因之一。
3. 基于細(xì)胞標(biāo)記的多基因風(fēng)險評分預(yù)測胃腺癌預(yù)后
文章的最后一部分是構(gòu)建風(fēng)險評分模型及其驗證,具體是怎么進(jìn)行的呢?我們一起來學(xué)習(xí)一下。首先研究人員結(jié)合前文中通過bulk RNA-seq數(shù)據(jù)所確定的惡性細(xì)胞標(biāo)記基因和scRNA-seq中所確定的9個惡性細(xì)胞亞群的標(biāo)記基因在TCGA-STAD數(shù)據(jù)集中進(jìn)行單變量cox分析,得到38個與OS顯著相關(guān)的基因,最后篩選出其中的10個基因用于后續(xù)構(gòu)建多基因風(fēng)險評分 (PRS),PRS與OS顯著相關(guān)(圖5A)。ROC分析顯示PRS在預(yù)測患者5年內(nèi)OS的效果不錯(圖5B-C)。此外,PRS也與患者的PFS相關(guān),若根據(jù)中位PRS將STAD患者分為高危組和低危組,且與低風(fēng)險組相比,高風(fēng)險組患者的OS(圖5D)和PFS(圖5E)都更短。通過PRS和常規(guī)臨床病理特征的多變量Cox分析可知,PRS是一個獨立的預(yù)后因素(圖5F)。
研究人員還將PRS與OS相關(guān)的常規(guī)臨床病理因素相結(jié)合來構(gòu)建用于預(yù)測OS率的列線圖模型(圖6A),以便更好地預(yù)測STAD患者的預(yù)后。OS在1-3年的校準(zhǔn)曲線表明預(yù)測和觀察之間具有良好的一致性(圖6B-D)。
最后便是對PRS的驗證。研究人員采用三個數(shù)據(jù)集(GSE84437、GSE66229和GSE26942)用于驗證 PRS 的預(yù)后價值,驗證結(jié)果與預(yù)期一致,且效果不錯,發(fā)現(xiàn)高風(fēng)險組患者的OS比低風(fēng)險組患者短(圖7)。
小結(jié)
腫瘤內(nèi)單一化的數(shù)據(jù)類型分析套路早已被人熟知,所以本文的研究人員巧妙的將傳統(tǒng)的bulk RNA-seq數(shù)據(jù)與目前比較熱門的單細(xì)胞數(shù)據(jù)分析相結(jié)合。通過簡單的差異分析在bulk RNA-seq中鑒定出標(biāo)記基因再用于scRNA-seq數(shù)據(jù)中的分析,最后再回歸到bulk RNA-seq的cox分析以構(gòu)建預(yù)測模型并加以驗證。通讀全文我們不難發(fā)現(xiàn),這篇文章的整體思路和分析方法并不難,而且數(shù)據(jù)也都來源于公共數(shù)據(jù),也沒有濕實驗的驗證。巧妙結(jié)合多種數(shù)據(jù),常規(guī)套路分析發(fā)文章其實也并不是那么難。
參考文獻(xiàn)
Zou Q, Lv Y, Gan Z, Liao S, Liang Z. Identification and Validation of a Malignant Cell Subset Marker-Based Polygenic Risk Score in Stomach Adenocarcinoma Through Integrated Analysis of Bulk and Single-Cell RNA Sequencing Data. Front Cell Dev Biol. 2021 Oct 18;9:720649. doi: 10.3389/fcell.2021.720649. PMID: 34733840; PMCID: PMC8558465.