哈嘍,大家好哇~馬上要過年了,小編在這里提前祝您新年快樂,闔家幸福~過年的氛圍該整還是得整起來,但是該讀的文獻(xiàn)也還是要繼續(xù)讀滴,誰讓咱是個(gè)卑微的搬磚人呢?
總覺得純生信快過時(shí)了,別人不還是一篇接一篇地中?就在1月17日(2022年的哦),frontier in genetics雜志發(fā)表了一篇純生信文章《Identification of Potential Prognostic Biomarkers Associated With Macrophage M2 Infiltration in Gastric Cancer》,主要關(guān)于腫瘤預(yù)后標(biāo)志物的篩選,別猶豫了,這份攻略趕快收藏起來,說不定下一個(gè)中SCI的就是你~
本文的數(shù)據(jù)來源非常簡單,主要是GEO數(shù)據(jù)庫中的3個(gè)胃癌芯片,包括GSE54129、GSE79973和GSE118916,詳細(xì)信息如下圖:
如此簡單的數(shù)據(jù),作者是如何玩出花樣的?且聽小編細(xì)細(xì)道來~
Part 1. DEGs鑒定和功能富集分析
說起鑒定腫瘤預(yù)后標(biāo)志物,懂得人都懂,第一步當(dāng)然是找差異啦~畢竟有差異,才能有對比,有對比才能有意義嘛~
本文作者的研究思路亦如此,他們在GEO數(shù)據(jù)庫中選取3個(gè)胃癌(GC)芯片數(shù)據(jù)(GSE54129、GSE79973和GSE118916),篩選差異表達(dá)基因(DEGs),繪制了火山圖如圖1A;
差異基因千千萬,究竟應(yīng)該怎么選?莫慌,小編告訴你一個(gè)萬能又很實(shí)用的方法—“取交集”,沒錯(cuò)!取交集就是在差異中找共性,共性才能說明問題嘛!試想一下,當(dāng)所有的數(shù)據(jù)都說明一個(gè)共同的問題的時(shí)候,說服性和可靠性是不是更高呢?果不其然,作者取了3個(gè)GC芯片數(shù)據(jù)中共同表達(dá)的337個(gè)差異基因,繪制Venn圖如圖1B;悄悄說一句,本文中作者只選擇了GEO數(shù)據(jù)庫中的3個(gè)芯片進(jìn)行了分析,如果想要增加文章的可靠性和豐富性,我們也是可以選擇不同數(shù)據(jù)庫(如TCGA等)中的數(shù)據(jù)取交集滴~
有了差異表達(dá)的基因,我們就可以放開手腳大膽干了,不出意外的話,接下來就該進(jìn)行差異表達(dá)基因的富集分析了,知己知彼,才能百戰(zhàn)不殆嘛!這個(gè)富集過程就是對這些差異表達(dá)的基因們進(jìn)行一個(gè)簡單的了解,主要弄明白這些差異基因在分子層面發(fā)揮的作用(分子功能,MF)、在細(xì)胞中的存在位置(細(xì)胞成分,CC)、參與的細(xì)胞過程(生物學(xué)過程,BP)以及參與的信號通路(KEGG)。富集分析結(jié)果的可視化有很多種形式(氣泡圖、條形圖等),在本文如圖1C。
圖A+B+C,動(dòng)動(dòng)小手3張圖一拼,這組圖1不就出來了嗎?忍不住夸自己真真是一個(gè)機(jī)智的小編呢[偷笑臉]
Part 2 使用CIBERSORT進(jìn)行免疫細(xì)胞浸潤預(yù)測
此部分在論文中是放在最后才介紹的,但是為了便于理解,小編把其調(diào)整到前面進(jìn)行解讀,因?yàn)楸疚氖恰霸谖赴┲需b定與M2巨噬細(xì)胞浸潤相關(guān)的潛在預(yù)后生物標(biāo)志物”,貼心的小編怕有些迷糊的小可愛一頭霧水:免疫細(xì)胞那么多,為什么單單就選擇M2巨噬細(xì)胞呢?是無心之舉?還是刻意為之?我們提前把話講清楚哦,這可不是隨便選選的哦,作者可是下了一番苦功夫的呢?作者使用CIBERSORT反卷積算法對免疫細(xì)胞浸潤進(jìn)行預(yù)測,才發(fā)現(xiàn)“M2巨噬細(xì)胞”在胃癌腫瘤和正常樣本中是顯著性差異表達(dá)的,于是才選擇它作為研究對象,可真是個(gè)寶貝疙瘩兒~
Part 3. 通過WGCNA鑒定巨噬細(xì)胞相關(guān)模塊和中樞基因
接下來整點(diǎn)兒高大上的~
首先介紹一位重磅級人物“WGCNA”,英文全稱Weighted correlation network,中文名字是“加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析”,是用來描述不同樣品之間基因關(guān)聯(lián)模式的系統(tǒng)生物學(xué)方法,可以用來鑒定高度協(xié)同變化的基因集,并根據(jù)基因集的內(nèi)連性和基因集與表型之間的關(guān)聯(lián)鑒定候補(bǔ)生物標(biāo)記基因或治療靶點(diǎn)。相比于只關(guān)注差異表達(dá)的基因,WGCNA利用數(shù)千或近萬個(gè)變化最大的基因或全部基因的信息識(shí)別感興趣的基因集,并與表型進(jìn)行顯著性關(guān)聯(lián)分析。一是充分利用了信息,二是把數(shù)千個(gè)基因與表型的關(guān)聯(lián)轉(zhuǎn)換為數(shù)個(gè)基因集與表型的關(guān)聯(lián),免去了多重假設(shè)檢驗(yàn)校正的問題。
話不多說,接下來就上干貨~
如文中所講,M2巨噬細(xì)胞在胃癌患者和正常人之間存在統(tǒng)計(jì)學(xué)差異,于是作者就對M2巨噬細(xì)胞和337個(gè)DEGs進(jìn)行加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析。以M2巨噬細(xì)胞作為外觀性狀,對GC樣本進(jìn)行聚類分析,如圖2A所示;在構(gòu)建共表達(dá)網(wǎng)絡(luò)之前,還有一步比較關(guān)鍵的步驟—尋找最優(yōu)軟閾值,如圖2B;關(guān)于尋找最優(yōu)軟閾值的內(nèi)容,不動(dòng)的小伙伴自行百度吧,很多博主講的很詳細(xì),在這里小編就不贅述了,主要怕懂的小伙伴打我[驚恐]
基于最優(yōu)軟閾值構(gòu)建共表達(dá)網(wǎng)絡(luò),將基因劃分到不同模塊后,可以繪制基因聚類樹,如圖2C,上半部分是基因的層次聚類樹狀圖,下半部分是基因模塊,也就是網(wǎng)絡(luò)模塊。上下對應(yīng),可以看到距離較近的基因(聚類到同一條分支)被劃分到了同一模塊。本文中這些差異表達(dá)的基因主要聚類為4個(gè)模塊。
圖2D就很簡單啦,在三個(gè)數(shù)據(jù)集中,GC患者和對照組之間M2巨噬細(xì)胞百分比。
圖2E是共表達(dá)模塊與外部性狀(M2鋸齒細(xì)胞)之間的關(guān)系,橫坐標(biāo)為表型性狀向量,縱坐標(biāo)為每個(gè)模塊的特征值向量,中間小格子中的數(shù)值代表每個(gè)性狀和每個(gè)模塊的特征值之間的相關(guān)性以及對應(yīng)的pvalue。
圖2F分析了M2巨噬細(xì)胞GS值和turquoise顏色模塊MM值的相關(guān)性,關(guān)于GS值和MM值的解釋,感興趣的小伙伴可以去查查資料哦~不過記住一點(diǎn)就好,進(jìn)行這一步主要是為了篩選模塊中的核心基因(hub gene),在本文中鑒定了turquoise模塊中的141個(gè)核心基因。
Part 4. PPI網(wǎng)絡(luò)構(gòu)建和核心基因鑒定
在String數(shù)據(jù)庫中對Part 1中獲得的337個(gè)差異基因構(gòu)建PPI網(wǎng)絡(luò),獲得了25個(gè)核心基因。Part 3部分,通過WGCNA鑒定了turquoise模塊中的141個(gè)核心基因。其中,有7個(gè)基因在這兩部分中均存在,包括COL1A1、COL4A1、COL5A2、COL12A1、LUM、PDGFRB和THBS1。
Part 5.使用GEPIA和KM數(shù)據(jù)庫對核心基因進(jìn)行生存分析
是騾子是馬?拿出來溜溜不就知道了?沒錯(cuò),于是作者首先利用GEPIA數(shù)據(jù)庫分析這7個(gè)核心基因與GC患者的生存預(yù)后的關(guān)系,同時(shí)通過KM數(shù)據(jù)庫進(jìn)行驗(yàn)證,最終確定了COL1A1(logrank p = 8.9e?5),COL4A1(logrank p = 5.5e?07),COL12A1(logrank p = 0.002)和PDGFRB(logrank p = 8.2e?12)為GC的樞紐基因。
Part 6. 樞紐基因與腫瘤純度和免疫浸潤的關(guān)系
到這里已經(jīng)看到了勝利的曙光,畢竟從成千上萬的基因中總算有理有據(jù)地篩選出了4個(gè)樞紐基因。但是,作者的腳步并沒有從此停下,而是進(jìn)一步進(jìn)行了免疫浸潤分析。結(jié)果發(fā)現(xiàn),COL1A1、COL4A1、COL12A1和PDGFRB都與腫瘤純度呈負(fù)相關(guān),與CD4 T細(xì)胞,巨噬細(xì)胞,嗜中性粒細(xì)胞和樹突狀細(xì)胞的浸潤之間存在顯著相關(guān)性。
Part 7. 樞紐基因的功能分析
俗話說,想要搞定女朋友,先要搞定她的閨蜜們~基因,同樣也是同樣的道理。想要真正了解某基因的功能,我們還要搞定它的閨蜜們,也就是相關(guān)基因,一個(gè)很好的方法就是構(gòu)建一個(gè)基因相互作用網(wǎng)絡(luò)。探索基因間相互作用和功能,除了string還有g(shù)eneMANIA,geneMANIA還可以用于基因功能預(yù)測。給定一個(gè)查詢基因,GeneMANIA會(huì)根據(jù)基因與它的相互作用,找到可能與它共享功能的基因。在本文中,鑒定出與4個(gè)樞紐基因相關(guān)的20個(gè)基因,進(jìn)一步分析發(fā)現(xiàn)它們參與細(xì)胞外基質(zhì),細(xì)胞-基質(zhì)粘附和ERBB信號通路。為了進(jìn)一步探索GC中樞紐基因的功能,作者對TCGA-STAD RNA-seq數(shù)據(jù)進(jìn)行了GSEA,結(jié)果發(fā)現(xiàn)COL1A1、COL4A1、COL12A1和PDGFRB,都富集在MAPK和PI3K-Akt信號通路中,這些信號通路與腫瘤細(xì)胞增殖、侵襲和細(xì)胞周期密切相關(guān)。
結(jié)語
最后,我們再來回顧一下,整篇文章的研究思路,順便把流程圖奉上~
客觀地講,生信分析的常見套路和方法也就幾種,想要玩出新意還是挺困難的,看上去相差無幾的圖片,總是給人一種灌水文、爛大街的感覺??v觀本文,把任何一部分單獨(dú)拎出來,都可以說是毫無新意可言,并且很多圖都是在線網(wǎng)站就可以直接生成的,也沒有體現(xiàn)出獨(dú)特的代碼功力,更要命的是,數(shù)據(jù)來源也僅僅是GEO一個(gè)數(shù)據(jù)庫,但是在純生信文章接收頻頻遇冷的情況下,為什么作者的這篇文章還可以中呢?小編認(rèn)為,可能因?yàn)橐韵聨c(diǎn):
1)研究目標(biāo)明確:全文圍繞M2巨噬細(xì)胞展開,避免了做生信分析最容易犯的“東一棒槌西一榔頭”的毛病,
2)采用了一些看上去比較高大上的算法:如CIBERSORT反卷積算法、加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析等;
3)多種分析手段互相驗(yàn)證:如GEPIA和KM數(shù)據(jù)庫、string和geneMANIA數(shù)據(jù)庫、常規(guī)差異表達(dá)基因和WGCNA同時(shí)鑒定核心基因等;
看到這里,一份完整的攻略已經(jīng)雙手奉上,還勞煩小可愛們動(dòng)動(dòng)手指,點(diǎn)個(gè)贊,可否?
參考文獻(xiàn):
Liu, B.; Ma, X.; Ha, W., Identification of Potential Prognostic Biomarkers Associated With Macrophage M2 Infiltration in Gastric Cancer. Frontiers in Genetics 2022, 12. https://doi.org/10.3389/fgene.2021.827444