哈嘍,大家好,今天向大家分享的是今年3月發(fā)表在Journal of Translational Medicine(IF:8.44)雜志上,縱觀全文,用最經典的差異分析以及模型構建,就更準確揭示了癌旁組織較腫瘤組織預測復發(fā)情況,以前的癌癥患者生存和治療后復發(fā)的轉錄組學特征的調查都集中在腫瘤組織上,本文發(fā)現,在結直腸癌(CRC)轉錄組來源于腫瘤附近的正常組織(NAT)是更好的復發(fā)預測,還發(fā)表了IF 8.44的SCI,讓癌旁組織不再是正常對照。
Transcriptomes of the tumor-adjacent normal tissues are more informative than tumors in predicting recurrence in colorectal cancer patients
1.數據來源
在排除TNM 4期后確定為TNM 1-3期且在手術切除時沒有遠處轉移的總共80名患有原發(fā)性CRC的韓國患者入組本研究。在SMC手術期間,共收集了80例患者的160份組織標本,包括原發(fā)腫瘤組織和鄰近組織學正常組織(即NATs)。在收集手術切除標本后,對病人的進展進行三年的隨訪檢查是否復發(fā)。結果,共有73例患者(包括25例復發(fā)患者(RC)和48例非復發(fā)患者(非RC)用于進一步分析,除去7例復發(fā)狀態(tài)不明確的樣本; 從146個樣本中的每一個生成兩種不同類型的RNA-seq數據,即73個腫瘤轉錄組和73個配對的NAT轉錄組。(圖1)
2. 相對于腫瘤,NATs表現出較小的幅度,但RC和非RC狀態(tài)之間的表達存在顯著差異
為了利用腫瘤組織和NAT組織DEGs的數量和統(tǒng)計學意義來區(qū)分區(qū)分RC與非RC狀態(tài),因此定義了兩類差異基因1.腫瘤差異基因:對腫瘤組織RC與非RC狀態(tài)之間進行差異表達得到的基因;2. NAT差異基因:對NAT組織RC與非RC狀態(tài)之間進行差異表達得到的基因。
圖2A:兩種類型的DEG的P值偏離隨機期望,且NAT-DEGs的p值偏差的幅度要更大;
圖2B:在FDR閾值從0.0001、0.001到0.01,NAT的DEG逐漸增多,且在0.01時NAT的DEG幾乎是腫瘤的6倍;
圖2C:火山圖對-log10(FDR)&log2FC閾值時兩類差異基因進行可視化,NAT DEG的數量 (藍色基因左圖) 顯著大于腫瘤 DEG的數量 (紅色基因右圖)
相反,當閾值為-log10(FDR) > 2 & log2FC絕對值 > 2,腫瘤DEG數量多于NAT,這表明腫瘤樣品中每個基因的表達水平比NAT更具有異質性。比較兩類差異基因中編碼蛋白基因的數量,發(fā)現NAT的數量顯著高于腫瘤組織。
從之前的研究中收集51個和預后相關的標記基因,將這51個基因和NAT、腫瘤交疊之后,分別計算RC和非RC樣本之間基因表達。
圖2D:在NAT中,51個基因中有33個基因在RC和非RC之間差異表達;51個基因中的9個在NAT中具有顯著較低的p值和較高的FCs,而只有4個基因在腫瘤中具有顯著較低的p值和較高的FCs。
圖2E: 兩個轉錄組數據集p值顯著偏離隨機期望,但NATs的幅度高于腫瘤。
3.NAT和腫瘤差異基因揭示了不同的功能
為了研究兩類差異基因相關的功能,作者對NAT和腫瘤的DEG進行了GO分析。
圖3A:NAT和腫瘤-DEG都富集在與腫瘤發(fā)生有關的GO term中,而諸如炎癥反應,對缺氧的反應和血管生成等僅在被NAT的DEG富集。
圖3B:在非RC和RC狀態(tài)之間進行基因表達比較時,發(fā)現NATs傾向于以顯著不同的水平表達 “轉移前小切口” 和 “增殖” 的各種特征基因,而在腫瘤組織中沒有顯著差異。在NATs和腫瘤組織中,“休眠” 的簽名基因中沒有顯著差異,只有一個被稱為 “D_1” 的類代表來自 “休眠研究 _1” 簽名的休眠相關基因 。(相關基因均在pubmed中檢索發(fā)現)
4. 將NAT-based的預測模型應用于來自TCGA隊列時,更好預測了COAD患者的生存
因為臨床更多取樣為腫瘤組織,所以作者利用450個TCGA COAD隊列這兩類轉錄組構建的模型進行評估。
圖4A: 比對了NAT-DEG 和腫瘤-DEG的P值,并發(fā)現它們彼此高度一致(每個條形圖中的點顯示了每個腫瘤 -DEG 產生的 P 值與 NAT-DEG 在指定范圍內估計的 P 值的中值)。
圖4B:構建了兩個基于彈性網絡的機器學習模型來預測CRC的復發(fā)狀態(tài),(i)基于NAT的彈性網絡模型和(ii)基于腫瘤的彈性網絡模型。
當特征數遠大于樣本數時彈性網絡的機器學習的準確率遠高于其他算法。用不同基因數量建立了幾個彈性網模型,然后計算每個TCGA樣本的復發(fā)風險評分,作為彈性網模型中基因系數與樣本中基因表達的余弦積;最后,使用TNM分期和性別信息作為預測TCGA-COAD患者3年生存率的協(xié)變量,對這些估計的風險評分進行多變量logistic回歸分析。模型風險分數來自NAT-derived彈性網模型產生更高的系數,且具有更高的置信區(qū)間(95%),而腫瘤更低。發(fā)現用28個DEG構建的基于NAT的彈性網絡模型是該分析中的最佳預后模型,并且這28個DEG含有涉及趨化因子活性或胰島素樣生長因子受體結合基因,包括NRSN2、CXCL10、CXCL9、N0S2和TYMP。
利用TCGA隊列評估兩個模型的準確率,發(fā)現NAT模型的準確率更高;作者還研究基于 NAT 和腫瘤的彈性網模型估計的風險評分與 TCGA-COAD 患者三年生存率的一致性,為此,根據風險評分將TCGA-COAD患者分為兩組后進行Kaplan-Meier圖分析:前20%高風險評分的患者和其余80%低風險評分的患者。
圖4C:NAT模型:高、低?;颊弑幻黠@分開且P值顯著
圖4D:腫瘤模型:高、低?;颊呋颊咧g的生存率差異沒有統(tǒng)計學意義
綜上所述, NAT模型在預測TCGA-COAD患者的三年生存率方面比腫瘤模型表現更好,在進行風險系數評估時也是這樣。
5. 浸潤性免疫細胞在NATs中比在腫瘤中更具有預測作用
基于浸潤的免疫細胞比例來預測復發(fā)(RC)和非復發(fā)(非RC)狀態(tài)的假設,作者用xcell來對73個CRC患者的NAT和腫瘤轉錄組數據進行免疫細胞比例的評估;在NAT和腫瘤中鑒定了總共29種免疫細胞類型,在估計每個患者的每種免疫細胞類型的比例后,進行邏輯回歸分析以確定NAT或腫瘤中的免疫細胞比例可以區(qū)分RC和非RC的程度。
圖5A:95%置信區(qū)間內,發(fā)現29種免疫細胞類型中的4種(幼稚CD8 + T細胞、CD8 + T細胞和Th2細胞以及幼稚B細胞),以及包括巨噬細胞和樹突細胞(Ml巨噬細胞、aDC和pDC)和嗜中性粒細胞的三種其他細胞類型可以預測關于復發(fā)顯著預測因子。
圖5B:相對于腫瘤,七種細胞類型區(qū)分CR和非CR在NAT中更顯著。
圖5C:這些細胞類型在NAT中的比例高于腫瘤。
這些結果強烈表明,NATs的腫瘤浸潤性免疫細胞的組成也可以為患者的預后提供信息。
6. NAT 和腫瘤的轉錄組在其他 TCGA 癌癥中的檢測
這種預測方法是否可以用在其他癌癥上,經過數據搜索發(fā)現大多數都缺少NAT數據,只有41個C0AD、58個LUAD、99個BRCA和50個LIHC NAT轉錄組數據可用,僅22個COAD、44例LUAD、74例BRCA、41例LIHC配對樣本有生存信息。由于樣本數量較少采用cox回歸進行分析。對于 TCGA 中的這四種癌癥類型,通過Cox回歸分析估計每個基因的風險比(HR),分別使用年齡,TNM分期和性別信息作為協(xié)變量,檢查與生存與生存顯著相關的基因。
圖6A-D:發(fā)現 SMC - CRC和 TCGA COAD中具有顯著 HR 的基因的比例在 NAT- 中顯著高于腫瘤衍生的轉錄組; 對于 SMC-CRC 樣本,53% 來自NAT而25%來自 腫瘤,對于 TCGA-COAD 樣本,65%來自 NAT 而31% 來自腫瘤。
圖6E-G:然而,LUAD、BRCA和LIHC表現出與基于SMC-CRC或TCGA-COAD的發(fā)現完全相反,因此腫瘤中具有顯著HRs的基因比例顯著高于BRCA衍生的轉錄組;
小結
在以往的研究中,關注點都集中在腫瘤組織中,分析和研究腫瘤中浸潤的免疫細胞、風險基因等,本篇文章的亮點在于關注癌旁組織,不再將癌旁組織作為對照,而是在其中篩選風險基因和構建預后模型。經過將癌旁和腫瘤轉錄組數據的對比發(fā)現,無論是從復發(fā)和非復發(fā)狀態(tài)下的差異基因數量、免疫浸潤的比例還是三年內對生存的預測,癌旁組織都比腫瘤更具有優(yōu)勢。本文還構建了癌旁和腫瘤預測的風險模型,并對風險模型進行了對比,又在其他癌癥類型中驗證了這種猜想。本文思路新穎,邏輯清晰,值得我們學習。