胰腺導(dǎo)管腺癌粘蛋白生信分析新思路
今天小編給大家?guī)?lái)一篇最新發(fā)表在Clinical Cancer Research上關(guān)于胰腺導(dǎo)管腺癌粘蛋白分析的文章,該雜志最新影響因子為12.531,中科院分區(qū)大類(lèi):醫(yī)學(xué) 1區(qū),小類(lèi):腫瘤學(xué) 1區(qū)。這篇文章從粘蛋白角度出發(fā),深入淺出闡析了粘蛋白及其剪接變異體是如何影響胰腺導(dǎo)管腺癌亞型分類(lèi)和病人生存,讓我們一起來(lái)學(xué)習(xí)吧!
前言
胰腺導(dǎo)管腺癌(Pancreatic ductal adenocarcinoma, PDAC)作為惡性程度最高的癌癥之一,其侵襲性高,進(jìn)展快。PDAC病人常因?qū)χ委煵豁憫?yīng)而預(yù)后差,5 年生存率約為 8%。目前臨床上仍缺乏對(duì)PDAC正確的亞型認(rèn)識(shí)以及有效的預(yù)后預(yù)測(cè)標(biāo)志物。粘蛋白在PDAC中的研究近幾年被廣泛提及,然而這些研究缺乏對(duì)粘蛋白家族的全面分析。作者在本研究中確認(rèn)了基于粘蛋白表達(dá)的的四種PDAC表型,這四種表型具有不同的生物學(xué)特征和預(yù)后特征。作者發(fā)現(xiàn)并驗(yàn)證了粘蛋白剪接變異體可作為PDAC病人有效的的預(yù)后預(yù)測(cè)標(biāo)志物,是臨床上潛在的治療靶點(diǎn),同時(shí)作者證明了在分析PDAC轉(zhuǎn)錄組數(shù)據(jù)時(shí),矯正由樣本腫瘤細(xì)胞比差異帶來(lái)的表達(dá)偏向性的重要性。
數(shù)據(jù)來(lái)源
(1)TCGA組:148例PDAC樣本,收集于TCGA公共數(shù)據(jù)庫(kù);
(2)ICGC組:67例PDAC樣本,收集于ICGA公共數(shù)據(jù)庫(kù);
(3)驗(yàn)證組:17例PDAC樣本,收集于內(nèi)布拉斯加州醫(yī)學(xué)中心的自測(cè)數(shù)據(jù)。
結(jié)果解讀
腫瘤細(xì)胞比對(duì)粘蛋白基因表達(dá)的影響
腫瘤細(xì)胞比未矯正前TCGA PDAC數(shù)據(jù)集中粘蛋白基因的表達(dá)和聚類(lèi)
根據(jù) TCGA的ABSOLUTE Purity算法打分,樣本被分為腫瘤細(xì)胞占比高和低兩組。作者首先在TCGA的這兩組樣本中評(píng)估了在特定細(xì)胞類(lèi)型中特異性表達(dá)的基因,包括:amylase 2A(胰腺腺泡細(xì)胞), CD45(免疫細(xì)胞), cytokeratin 19(上皮細(xì)胞),leptin(脂肪細(xì)胞),mesothelin(基質(zhì)細(xì)胞)。結(jié)果表明腫瘤細(xì)胞占比高的樣本和腫瘤細(xì)胞占比低的樣本,其細(xì)胞構(gòu)成比之間存在差異。
接著,作者在腫瘤細(xì)胞占比高的樣本和低的兩組樣本比較了粘蛋白家族基因的表達(dá),結(jié)果表明粘蛋白家族基因在這兩組樣本間存在顯著差異。通過(guò)聚類(lèi)分析,這些粘蛋白家族基因被分為四組,分別是MUC19,MUC1/3/12/13/17/20, MUC6/15/22和MUC2/4/5AC/5B/16/21。而根據(jù)這四組基因的表達(dá),病人樣本被聚類(lèi)為5組,作者選擇腫瘤細(xì)胞占比高的病人樣本進(jìn)行生存分析,結(jié)果表明這5組病人間總生存率存在顯著差異(Wilcoxon p=0.05)。
圖1. 腫瘤細(xì)胞比未矯正前TCGA PDAC數(shù)據(jù)集中粘蛋白的表達(dá)和聚類(lèi)
ICGC PDAC數(shù)據(jù)集中粘蛋白基因的表達(dá)和聚類(lèi)
作者同樣在ICGA數(shù)據(jù)庫(kù)中收集到的67例PDAC樣本中評(píng)估了粘蛋白家族基因的表達(dá),通過(guò)聚類(lèi)分析,這些粘蛋白家族基因被分為四組,分別是MUC12/22,MUC4/15/16/21,MUC3A/6/19和MUC1/2/5AC/5B/13/17/20。而根據(jù)這四組基因的表達(dá),病人樣本被聚類(lèi)為5組,生存分析結(jié)果表明這5組病人間總生存率存在顯著差異(Wilcoxon p=0.02)。
圖2. ICGC PDAC數(shù)據(jù)集中粘蛋白的表達(dá)和聚類(lèi)
腫瘤細(xì)胞比矯正后TCGA PDAC數(shù)據(jù)集中粘蛋白基因的表達(dá)和聚類(lèi)
由于粘蛋白僅由惡性腫瘤上皮細(xì)胞表達(dá),因此作者認(rèn)為評(píng)估每個(gè)患者的粘蛋白轉(zhuǎn)錄水平時(shí)需要考慮樣本中腫瘤細(xì)胞的比例。作者將TCGA組中每個(gè)樣本歸一化后的粘蛋白家族基因表達(dá)水平除以其各自的ABSOLUTE Purity算法打分,從而矯正腫瘤細(xì)胞占比不均衡。
經(jīng)過(guò)矯正后,作者重新評(píng)估了粘蛋白家族基因的表達(dá),通過(guò)聚類(lèi)分析,這些粘蛋白家族基因被分為四組,分別是MUC7/12/17,MUC1/3/13/19/20,MUC6/15/22和MUC2/4/5AC/5B/16/21,而根據(jù)這四組基因的表達(dá),病人樣本被聚類(lèi)為5組,生存分析結(jié)果表明這5組病人間總生存率存在顯著差異(Wilcoxon p=0.03)。
圖3. 腫瘤細(xì)胞比矯正后TCGA PDAC數(shù)據(jù)集中粘蛋白的表達(dá)和聚類(lèi)
作者在這部分結(jié)果中,評(píng)估了腫瘤細(xì)胞比矯正前后PDAC樣本中粘蛋白基因的表達(dá),以及其對(duì)病人生存的潛在影響,作者認(rèn)為細(xì)胞構(gòu)成比不同的樣本無(wú)法直接橫向比較粘蛋白基因的表達(dá),因此作者選擇矯正后的粘蛋白家族基因表達(dá)進(jìn)行下一步分析。
基于粘蛋白基因表達(dá)水平的PDAC亞型
粘蛋白家族基因的主成分分析
基于斯皮爾曼相關(guān)性,作者對(duì)PDAC樣本的粘蛋白家族基因進(jìn)行主成分分析。作者首先比較了TCGA樣本未矯正數(shù)據(jù)的PCA和ICGC 樣本的PCA,在確認(rèn)了這兩組數(shù)據(jù)的主成分顯著重疊后,作者在TCGA樣本矯正后的粘蛋白基因表達(dá)數(shù)據(jù)中進(jìn)行主成分分析,計(jì)算出4個(gè)顯著的主成分,解釋度達(dá)70%,同時(shí)作者篩選了在PC1中載荷量絕對(duì)值大于0.5,在PC2/PC3/PC4中載荷量絕對(duì)值大于0.3的粘蛋白基因。作者進(jìn)一步篩選了分別與四個(gè)PC顯著正相關(guān)的基因,并進(jìn)行通路富集分析。最終結(jié)果表明,PC1的粘蛋白基因與免疫激活相關(guān),PC2的粘蛋白基因與腫瘤進(jìn)展侵襲相關(guān),PC3的粘蛋白基因與腺泡損傷以及胰腺炎相關(guān),而PC4的粘蛋白基因與抗炎和上皮內(nèi)瘤樣病變進(jìn)展相關(guān)。
圖4. 粘蛋白家族基因的主成分分析
(2)基于粘蛋白基因表達(dá)水平的PDAC亞型和生存
基于樸素貝葉斯分類(lèi)算法,作者分別評(píng)估了四個(gè)主成分中的黏蛋白基因?qū)DAC樣本亞型的分類(lèi)能力,并繪制了ROC曲線(AUC=0.9648, 0.9971, 0.8833, 0.8529)。作者進(jìn)一步探究了基于黏蛋白基因表達(dá)的四種PDAC亞型之間病人的生存差異,對(duì)于每種PDAC亞型的病人樣本,取相應(yīng)的黏蛋白基因表達(dá)高低排序前25%的樣本(High PC)和后25%的樣本(Low PC)比較,PC2和PC3亞型的患者高低分組之間的生存沒(méi)有顯著性差異,而PC1和PC4亞型的患者高低分組之間的生存具有顯著性差異。
圖5. 基于粘蛋白基因表達(dá)水平的PDAC亞型和生存
作者在這部分結(jié)果中,確定了基于粘蛋白基因表達(dá)水平的PDAC亞型,分別是免疫激活相關(guān)亞型,腫瘤進(jìn)展侵襲相關(guān)亞型,腺泡損傷以及胰腺炎相關(guān)亞型,抗炎和上皮內(nèi)瘤樣病變進(jìn)展相關(guān)亞型。
PDAC病人生存相關(guān)的黏蛋白基因剪接變異體
作者評(píng)估了單個(gè)黏蛋白基因表達(dá)與PDAC病人生存的相關(guān)性,然而缺乏顯著性,因此作者進(jìn)一步考慮了黏蛋白的剪接變異體與PDAC病人生存之間的相關(guān)性。作者將TCGA 組PDAC病人樣本的原始RNA-seq數(shù)據(jù)與Ensembl 94 GRCh38 cDNA參考轉(zhuǎn)錄本比對(duì),得到黏蛋白的剪接變異體,并基于其表達(dá)高低繪制病人生存曲線。作者共發(fā)現(xiàn)了6個(gè)黏蛋白剪接變異體的高表達(dá)與PDAC病人更好的生存相關(guān),6個(gè)黏蛋白剪接變異體的高表達(dá)與PDAC病人更差的生存相關(guān)。
圖6. PDAC病人生存相關(guān)的黏蛋白剪接變異體
MUC4-sv-215和MUC13-sv-203的驗(yàn)證
作者選擇了與PDAC病人較差預(yù)后相關(guān)的MUC4-sv-215和較好預(yù)后相關(guān)的MUC13-sv-203這兩個(gè)剪接變異體在獨(dú)立數(shù)據(jù)集中進(jìn)行驗(yàn)證。為了矯正樣本的腫瘤細(xì)胞占比,作者選取了與ABSOLUTE Purity算法打分最相關(guān)的基因,分別是ESRP2(Spearman’s rho=0.6191, p<0.001),PTK6(Spearman’s rho=0.7682, p<0.001)和MAGEH1(Spearman’s rho=-0.6570, p<0.001),樣本的腫瘤細(xì)胞占比基于這三個(gè)基因的拷貝數(shù)計(jì)算,最終樣本被分為腫瘤細(xì)胞占比高樣本(n=15)和腫瘤細(xì)胞占比低樣本(n=2)。由于缺乏具體的ABSOLUTE Purity算法打分,數(shù)據(jù)無(wú)法進(jìn)行歸一化,所以作者選取了腫瘤細(xì)胞占比高的樣本進(jìn)行下一步的驗(yàn)證。分別根據(jù)MUC4-sv-215和MUC13-sv-203的表達(dá)高低,被分為兩組的樣本總生存之間存在顯著差異(p=0.0375和p=0.1048),結(jié)果表明這兩個(gè)黏蛋白剪接變異體與PDAC病人的生存顯著相關(guān),是有效的預(yù)后靶點(diǎn)。
圖7. MUC4-sv-215和MUC13-sv-203的驗(yàn)證
作者發(fā)現(xiàn)單個(gè)黏蛋白基因表達(dá)與PDAC病人生存之間缺乏顯著的相關(guān)性,進(jìn)而評(píng)估了黏蛋白剪接變異體與PDAC病人生存之間的相關(guān)性,最終確認(rèn)了MUC4-sv-215和MUC13-sv-203,并成功驗(yàn)證。
小編總結(jié)
近年來(lái),黏蛋白基因在PDAC中的表達(dá)和功能的研究被提出,然而這些研究局限于單個(gè)黏蛋白基因的表達(dá)。該文章從黏蛋白家族基因出發(fā),全面分析并挖掘了黏蛋白家族基因panels,發(fā)現(xiàn)了基于黏蛋白基因表達(dá)的PDAC亞型分類(lèi),并挖掘了與 PDAC病人預(yù)后相關(guān)的黏蛋白剪接變異體。同時(shí),作者也提出了在分析PDAC轉(zhuǎn)錄組數(shù)據(jù)時(shí),矯正由樣本腫瘤細(xì)胞比差異帶來(lái)的表達(dá)偏向性的重要性,這也是本文的創(chuàng)新點(diǎn)。然而小編認(rèn)為,該文章美中不足的是,對(duì)“基于黏蛋白基因表達(dá)的PDAC亞型分類(lèi)”和“與PDAC病人預(yù)后相關(guān)的黏蛋白剪接變異體”這兩塊研究?jī)?nèi)容的銜接并不明顯,以及出現(xiàn)少許的圖文不符等編稿錯(cuò)誤??偟膩?lái)說(shuō),該文章對(duì)想研究癌癥粘蛋白基因的讀者來(lái)說(shuō)具有啟發(fā)意義,希望大家一起學(xué)習(xí)研讀!