最新十月發(fā)表的癌癥亞型分類(lèi)方法,小編帶大家一起解讀這篇發(fā)表在《Briefings in Bioinformatics》(if=11.622)上的文章。目前腫瘤亞型的發(fā)現(xiàn)已成為腫瘤學(xué)研究的熱點(diǎn)。將癌癥患者劃分為不同的亞型可以為不同的患者提供個(gè)性化的治療。高通量技術(shù)也為癌癥分型提供了多種組學(xué)數(shù)據(jù)以供處理。在許多算法中,多視圖數(shù)據(jù)的集成被用來(lái)識(shí)別癌癥亞型,即使使用相同的數(shù)據(jù),也可以獲得相同癌癥的不同亞型。但是我們可以發(fā)現(xiàn)不同方法得出的這些亞型在一定程度上是相關(guān)的,這可能對(duì)腫瘤亞型的劃分有一定的指導(dǎo)意義。那么如何有效利用不同亞型的有價(jià)值信息來(lái)產(chǎn)生更準(zhǔn)確可靠的亞型呢?這篇文章中研究者提出了一種基于加權(quán)集成稀疏潛在表達(dá)(subtype-WESLR)的算法分析異質(zhì)性組學(xué)數(shù)據(jù),用來(lái)精準(zhǔn)的檢測(cè)癌癥亞型。
小編解讀:
這個(gè)研究中,作者利用加權(quán)集成策略將不同分類(lèi)方法得到的癌癥亞型聚類(lèi)作為先驗(yàn)信息進(jìn)行融合,subtype-WESLR算法在保持原始樣本特征空間的局部結(jié)構(gòu)和加權(quán)集成一致性的同時(shí),將每個(gè)數(shù)據(jù)類(lèi)型的每個(gè)樣本特征輪廓投影到公共子空間,并通過(guò)迭代方法優(yōu)化其公共子空間來(lái)識(shí)別癌癥亞型。
作者在各種合成數(shù)據(jù)集和來(lái)自TCGA的8個(gè)公共多視圖數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,subtypes-weslr通過(guò)集成現(xiàn)有方法的聚類(lèi)來(lái)獲得更精確的子類(lèi)型,是一種優(yōu)于其他方法。
具體內(nèi)容:隨著高通量技術(shù)的發(fā)展,癌癥基因組圖譜(TCGA)等大型項(xiàng)目的各種基因組的公共數(shù)據(jù)可以被我們用來(lái)分析。TCGA提供了30多種癌癥的同源樣本的基因表達(dá)、miRNA表達(dá)和DNA甲基化等異質(zhì)性組學(xué)數(shù)據(jù),為研究癌癥的發(fā)生發(fā)展提供了前所未有的機(jī)會(huì)。但是研究表明,單一的數(shù)據(jù)類(lèi)型,如基因表達(dá),只能在一個(gè)特定的分子水平上描述一個(gè)生物學(xué)過(guò)程,為亞型提供不完整的信息,并不能捕捉到癌癥的細(xì)微之處。但來(lái)自不同生物學(xué)領(lǐng)域的不同數(shù)據(jù)類(lèi)型提供了不同的、部分獨(dú)立的和互補(bǔ)的基因組視圖。因此,有了許多計(jì)算方法結(jié)合多組學(xué)數(shù)據(jù)來(lái)發(fā)現(xiàn)癌癥亞型。其中
LRAcluster算法:通過(guò)對(duì)數(shù)字、計(jì)數(shù)和離散特征的分布進(jìn)行概率建模,將每個(gè)樣本的多個(gè)異質(zhì)性組學(xué)數(shù)據(jù)連接起來(lái),但這種集成沒(méi)有考慮不同組學(xué)中數(shù)據(jù)的不同分布和維數(shù)詛咒。結(jié)合生物數(shù)據(jù)的一個(gè)常見(jiàn)策略是對(duì)每個(gè)數(shù)據(jù)類(lèi)型單獨(dú)聚類(lèi),并整合它們不同的聚類(lèi)分配。
PINS算法:通過(guò)為每個(gè)數(shù)據(jù)類(lèi)型建立一個(gè)樣本連接矩陣,將連接矩陣合并成一個(gè)合并的患者相似性矩陣。然而,這種集成忽略了數(shù)據(jù)類(lèi)型之間微弱但一致的相關(guān)性。一些統(tǒng)計(jì)方法對(duì)每種數(shù)據(jù)類(lèi)型的分布進(jìn)行建模,然后使多組數(shù)據(jù)的可能性最大化。
iClusterBayes算法:通過(guò)使用幾個(gè)貝葉斯?jié)撛谧兞縼?lái)實(shí)現(xiàn)聯(lián)合降維,從而捕獲多個(gè)組學(xué)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。然而,這些方法受到多組數(shù)據(jù)假設(shè)的限制。此外,由于特征數(shù)量較多,這些方法還需要進(jìn)行特征選擇。基于相似性的多組數(shù)據(jù)方法[15 17]避免了這個(gè)問(wèn)題。
相似性網(wǎng)絡(luò)融合(SNF):為每個(gè)omic建立一個(gè)樣本相似網(wǎng)絡(luò),并基于消息傳遞將這些樣本網(wǎng)絡(luò)融合為一個(gè)單一的組合網(wǎng)絡(luò)。
模式融合分析(PFA):考慮了多組數(shù)據(jù)與聯(lián)合降維的集成,通過(guò)自適應(yīng)優(yōu)化策略將來(lái)自每個(gè)數(shù)據(jù)類(lèi)型的局部樣本模式融合成與表型相對(duì)應(yīng)的完整樣本模式。
Subtype-GAN:一種深度學(xué)習(xí)應(yīng)用于分子數(shù)據(jù)處理和分析的方法。利用多輸入多輸出神經(jīng)網(wǎng)絡(luò)精確建模復(fù)雜組學(xué)數(shù)據(jù),并使用共識(shí)聚類(lèi)和高斯混合模型識(shí)別腫瘤樣本分子亞型。由于亞型的不確定性,對(duì)于同一種癌癥,方法可能會(huì)有不同的亞型,甚至使用相同的多組數(shù)據(jù),這對(duì)癌癥亞型有一定的指導(dǎo)意義。
那么如何有效地利用不同亞型的有價(jià)值信息,生成更準(zhǔn)確、更可靠的亞型?本研究中,提出了一種集成方法可以利用一些預(yù)先選擇的聚類(lèi)方法獲得較好的聚類(lèi)結(jié)果。每一種輸入聚類(lèi)方法通過(guò)計(jì)算每一對(duì)父節(jié)點(diǎn)的支持邊來(lái)構(gòu)造一個(gè)圖,通過(guò)對(duì)這些圖進(jìn)行集成來(lái)構(gòu)造一個(gè)集成圖,并應(yīng)用于基于模塊化質(zhì)量的圖聚類(lèi)。基于稀疏子空間學(xué)習(xí)框架,這種集成聚類(lèi)方法,稱(chēng)為“weighted ensemble sparse latent representation”(Subtype-WESLR)。它通過(guò)分析多個(gè)異質(zhì)性組學(xué)數(shù)據(jù),同時(shí)考慮其他方法得到的癌癥亞型,從而識(shí)別癌癥亞型。這些模型將每個(gè)數(shù)據(jù)類(lèi)型的每個(gè)樣本特征輪廓投影到與子空間一致性相對(duì)應(yīng)的公共潛在子空間中,該子空間應(yīng)保持原始樣本特征空間的局部結(jié)構(gòu),并與集成聚類(lèi)保持一致,即保持局部結(jié)構(gòu)的一致性和基指標(biāo)的一致性。并通過(guò)迭代優(yōu)化公共子空間來(lái)識(shí)別癌癥亞型。
subtype-WESLR不同于其他集成方法,在每個(gè)視圖上分別應(yīng)用不同的聚類(lèi)算法,或者對(duì)不同聚類(lèi)算法的基層分區(qū)一視同仁,subtype-WESLR直接將聚類(lèi)算法應(yīng)用于多視圖數(shù)據(jù),獲得基聚類(lèi)作為先驗(yàn)信息。此外,在不同的基聚類(lèi)中自適應(yīng)地應(yīng)用權(quán)重集成來(lái)獲得最優(yōu)組合。再經(jīng)過(guò)實(shí)際數(shù)據(jù)的驗(yàn)證后,研究人員發(fā)現(xiàn)這種研究方法是優(yōu)于其他方法的,加權(quán)集成聚類(lèi)可以獲得更準(zhǔn)確、更可靠的子類(lèi)型來(lái)發(fā)現(xiàn)子類(lèi)型。
subtype-WESLR亞型分類(lèi)方法的優(yōu)勢(shì):
(i)考慮不同方法的加權(quán)集成聚類(lèi),目的是利用已識(shí)別的不同子類(lèi)型的有價(jià)值信息作為先驗(yàn)知識(shí),生成更精確的子類(lèi)型。
(ii)開(kāi)發(fā)子類(lèi)型- weslr來(lái)學(xué)習(xí)多視圖數(shù)據(jù)之間的稀疏潛在表達(dá),以便發(fā)現(xiàn)子類(lèi)型,假設(shè)輸入視圖是由共同的潛在表達(dá)生成的。為了保持各數(shù)據(jù)類(lèi)型的局部結(jié)構(gòu)一致性和加權(quán)集成聚類(lèi)指標(biāo)的一致性,引入了多視圖拉普拉斯正則化。
(iii)在合成數(shù)據(jù)上的實(shí)驗(yàn)表明,subtype-WESLR在不同噪聲和不同基聚類(lèi)數(shù)下發(fā)現(xiàn)共同模式方面具有優(yōu)勢(shì)。在TCGA數(shù)據(jù)集中的8個(gè)公共多視圖數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,subtype- weslr捕獲的癌癥子類(lèi)型比其他方法更可靠。
算法研究:
多視圖數(shù)據(jù)的稀疏潛在表達(dá)
假設(shè)有n個(gè)樣本(如患者)和m個(gè)視圖(如miRNA, mRNA, DNA甲基化)。第p個(gè)視圖數(shù)據(jù)表示為矩陣x Xp ∈ Rdp×n (p = 1, 2, ..., m),其中dp為第p個(gè)特征矩陣的特征個(gè)數(shù)。將多組數(shù)據(jù)投影到一個(gè)共同的潛在子空間F ∈ Rn×c(F ≥ 0),該子空間可以通過(guò)最小化得到
||F和c分別為范數(shù)和簇?cái)?shù)。Gp∈ Rdp×c是第p個(gè)視圖特征矩陣的投影矩陣,其元素代表特征的權(quán)值,且非負(fù),即i.e. Gp ≥ 0。
利用L1-范數(shù)對(duì)投影矩陣Gp進(jìn)行正則化,刻畫(huà)稀疏性,并引入正則化參數(shù)λ>0. FTF = I確保F是一個(gè)指標(biāo)矩陣,其中I是單位矩陣。目標(biāo)函數(shù)(1)可表示為
接下來(lái)我們探討之前提到的局部結(jié)構(gòu)異質(zhì)性:
多組數(shù)據(jù)的局部結(jié)構(gòu)一致性
通過(guò)合并多視圖數(shù)據(jù),共享的稀疏潛在子空間應(yīng)保持原始特征空間的局部結(jié)構(gòu),可以使用多視圖拉普拉斯正則化來(lái)保持局部一致性。對(duì)于每個(gè)特征矩陣Xp,我們利用高斯核函數(shù)構(gòu)造一個(gè)帶元素的圖模型S(P)
(如果xp(j)是xp(i)的最近鄰k值,則取第一個(gè);否則為0)
其中xp(i)和xp(j)為第p個(gè)特征矩陣的樣本向量,σ為xp(i)和xp(j)之間的歐式距離(歐幾里德距離)。設(shè)D(p) 是一個(gè)對(duì)角矩陣
,則圖拉普拉斯矩陣L(p) 可定義為
因此,對(duì)于F,保持原特征空間局部結(jié)構(gòu)一致性的多視圖拉普拉斯正則化可以重新表述為
其中權(quán)系數(shù)αp平衡了第p個(gè)特征空間中圖拉普拉斯矩陣對(duì)預(yù)測(cè)的貢獻(xiàn)。因?yàn)閞1>1,保證所有的圖拉普拉斯矩陣都有助于識(shí)別子類(lèi)型。
不同聚類(lèi)的基礎(chǔ)指標(biāo)一致性
不同方法得出的亞型在一定程度上與同一腫瘤相關(guān),對(duì)腫瘤亞型有一定的指導(dǎo)意義?;旱募蓪?duì)于子類(lèi)型的發(fā)現(xiàn)是有意義的。
假設(shè)有一組基本聚類(lèi)結(jié)果,其中指標(biāo)矩陣 Yq ∈ Rn×cq (q = 1, 2, ..., NQ ) 由q基聚類(lèi)算法(如SNF、iClusterPlus和PFA)生成,其中cq和NQ分別為q基算法中的聚類(lèi)個(gè)數(shù)和基算法的個(gè)數(shù)。如果樣本i屬于Yq中的第j個(gè)聚類(lèi),則對(duì)應(yīng)的元素Yq(i, j)設(shè)為1,否則Yq(i, j)設(shè)為0。對(duì)于每個(gè)基聚類(lèi)矩陣,用元素構(gòu)造一個(gè)圖模型S(q)
(如果樣本i和j在第q基聚類(lèi)算法中屬于樣本聚類(lèi)則為1,否則為0)
同理,設(shè)D(q) q是一個(gè)對(duì)角矩陣,其中
,則圖拉普拉斯矩陣L(q) q可定義為
我們可以從每個(gè)基聚類(lèi)中提取有用的信息,其中矩陣L(q) 可以看作是一個(gè)樣本網(wǎng)絡(luò)的指示。加權(quán)集成指標(biāo)可以自適應(yīng)增強(qiáng)底層子空間F的一致性,對(duì)于F不同聚類(lèi)的基本指標(biāo)一致性可以通過(guò)
其中,權(quán)系數(shù)βq平衡了q基聚類(lèi)方法對(duì)預(yù)測(cè)的貢獻(xiàn)。可以保證所有的基本聚類(lèi)方法都有助于使用r2 > 1來(lái)識(shí)別子類(lèi)型。
加權(quán)集合稀疏潛在表示
結(jié)合(5)和(8),通過(guò)聯(lián)合自適應(yīng)加權(quán)拉普拉斯正則化,得到保持局部結(jié)構(gòu)一致性和基指標(biāo)一致性的稀疏潛空間F
σ<0用于平衡特征矩陣和基本集成聚類(lèi)結(jié)果。權(quán)重系數(shù)αp(p = 1,…, M)和βq(q = 1,…, Nq)兩者都可以自適應(yīng)地獲得。結(jié)合(2)和(9),我們可以寫(xiě)出subtype- WESLR為
其中,μ >是正則化參數(shù)。
subtype-WESLR的解決
我們通過(guò)交替迭代更新來(lái)優(yōu)化目標(biāo)函數(shù),得到(10)的解,如補(bǔ)充材料中分析的那樣。我們將αp和βq的初始值分別設(shè)為1/m和1/NQ,并優(yōu)化F和Gp的值;然后依次更新αp和βq。利用乘法更新規(guī)則,我們得到了F、Gp、αp和βq的更新后規(guī)則:
其中e元素1*dp的向量都是1。在補(bǔ)充材料中引入σ來(lái)約束FTF = I。L(+), L(?), B(+), B(?), A(+) p , A(?) p ,B(+) p and B(?)p被定義為
應(yīng)用更新規(guī)則(11-14),研究人員證明了子類(lèi)型weslr的優(yōu)化是趨于一致的。當(dāng)應(yīng)用subtype- weslr求解目標(biāo)函數(shù)(10)時(shí),可以使用指示矩陣F進(jìn)行癌癥亞型識(shí)別,其中矩陣F中每一行的最大值所在的列為一個(gè)癌癥亞型的聚類(lèi)指數(shù)。{αp}mp=1和{βq}NQ q=1分別引用了每個(gè)視圖特征矩陣和每個(gè)基聚類(lèi)算法對(duì)預(yù)測(cè)的貢獻(xiàn)。基于上述優(yōu)化過(guò)程,在算法1中總結(jié)了subtype-WESLR。
結(jié)果:
試驗(yàn)設(shè)置
參數(shù)設(shè)置
計(jì)算拉普拉斯矩陣時(shí),兩個(gè)自由參數(shù)k和θ的合理范圍分別為{10,15,20,25,30,35}和{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}。正則化參數(shù)μ和λ分別在{0.0001,0.001,0.01,0.1,1,10}和{0.001,0.01,0.1,1,10}范圍內(nèi)。參數(shù)r1、r2、σ與權(quán)系數(shù)αp、βq有關(guān),r1、r2在{2,3,5,10,100,1000}范圍內(nèi),值越小性能越好。σ在{0.1,1,10,100,1000,10000}范圍內(nèi),當(dāng)σ很大時(shí),αp和βq可以接近1/m和1/NQ。正則化參數(shù)δ在{0.00001,0.0001,0.001,0.01,0.1,1}范圍內(nèi),用于平衡特征矩陣和基聚類(lèi)算法之間的權(quán)重。由于子類(lèi)型- weslr的收斂性,停止規(guī)則設(shè)為
或最大迭代次數(shù)。
不同聚類(lèi)算法比較方式
在合成數(shù)據(jù)和TCGA數(shù)據(jù)上,將subtype-WESLR與SNF、iClusterPlus、LRAcluster、moCluster、PFA、iClusterBayes、kmeans、spectral clustering、NEMO等相關(guān)多視圖聚類(lèi)方法進(jìn)行了比較。研究人員還在TCGA數(shù)據(jù)上比較了subtype-WESLR與最近的ClustOmics和subtype-GAN。
評(píng)價(jià)標(biāo)準(zhǔn)
采用歸一化交互信息,即NMI,衡量?jī)蓚€(gè)聚類(lèi)之間的一致性,評(píng)估在模擬數(shù)據(jù)集上的性能。NMI取值范圍為0 ~ 1,取值越高越好。通過(guò)Cox回歸模型的p值和一致性指數(shù)(Cindex)比較了subtype-weslr和其他方法在8個(gè)癌癥隊(duì)列中的表現(xiàn),并通過(guò)生存分析分析了確定的亞型。值得注意的是,對(duì)于每一種方法,都是按照文中的規(guī)則設(shè)置參數(shù),并對(duì)模擬數(shù)據(jù)或真實(shí)數(shù)據(jù)進(jìn)行了多次不同設(shè)置的測(cè)試,試圖選擇相對(duì)較好的NMI或p值。由于數(shù)據(jù)和參數(shù)設(shè)置的不同,工作結(jié)果可能與其他算法的之前報(bào)告不同。
時(shí)間復(fù)雜度
subtype-weslr的運(yùn)行時(shí)間可分為計(jì)算圖拉普拉斯矩陣步驟和優(yōu)化步驟。計(jì)算所有基聚類(lèi)方法和所有組學(xué)方法的圖拉普拉斯矩陣分別需要O(n2·NQ)和O(dp2·m)。迭代過(guò)程中優(yōu)化計(jì)算時(shí)間為O(T·(NQ + m)),其中T為最大迭代次數(shù)。因此,總時(shí)間復(fù)雜度為O(n2 · NQ + dp2 · m + T · (NQ + m)).
綜合數(shù)據(jù)分析
基于涉及miRNA、mRNA和DNA甲基化的合成數(shù)據(jù)集,研究人員將subtype-WESLR與其他方法進(jìn)行了比較。分別從GEO 數(shù)據(jù)庫(kù)中GSE73002、GSE10645和GSE51557中獲得miRNA表達(dá)、mRNA表達(dá)和DNA甲基化數(shù)據(jù)的多視圖數(shù)據(jù)。由于良好狀態(tài)數(shù)值示例的性能優(yōu)于不良狀態(tài)數(shù)值示例,采用均值{0,0.25,0.5,0.75}模擬了較差狀態(tài)下的合成數(shù)據(jù),包括200個(gè)樣本,分別為1-50,51-100,101-150和151-200四個(gè)聚類(lèi)。每種數(shù)據(jù)類(lèi)型都可以區(qū)分不完全簇,所有數(shù)據(jù)類(lèi)型對(duì)應(yīng)于簇{1-50,51-150,151-200},{1-50/101-150,51-100,151-200}和{1-100,101-150,151-200}。SNF、iClusterPlus、LRAcluster和moCluster作為subtype-weslr的基本方法,即基本方法的聚類(lèi)是subtype-weslr的輸入。在模擬數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法對(duì)各種參數(shù)設(shè)置都具有很強(qiáng)的魯棒性
比較不同的額外噪音
進(jìn)行50次實(shí)驗(yàn),分別生成包含0%、20%和30%額外噪聲的數(shù)據(jù)集,即低噪聲、中等噪聲和高噪聲。在模擬中,我們考慮了不同方法獲得的聚類(lèi)與地面真實(shí)聚類(lèi)之間的NMI(表1;補(bǔ)充圖S7A)。如表1所示,subtype-weslr優(yōu)于其他方法,在不同噪聲設(shè)置下與地面真實(shí)簇的一致性方面,而且隨著額外噪聲的增加,只有很小的f波動(dòng)。NEMO和iClusterBayes在不同的噪聲水平下也相對(duì)穩(wěn)定。PFA表現(xiàn)最差,可能是因?yàn)樗惴▽?duì)參數(shù)很敏感
不同算法的比較
SNF作為subtype-weslr的基聚類(lèi)方法,對(duì)額外的噪聲不敏感,僅次于子型weslr。在moCluster和iClusterPlus的噪聲下,LRAcluster更好、更穩(wěn)定,而這兩者在識(shí)別集群方面都很差。這些基方法的性能與基聚類(lèi)對(duì)subtype-weslr的貢獻(xiàn)相對(duì)應(yīng),即圖A中,基方法性能越好,基聚類(lèi)對(duì)子類(lèi)型- weslr的貢獻(xiàn)越大,其中SNF的貢獻(xiàn)最大。類(lèi)似地,圖B顯示了DNA甲基化、miRNA和mRNA對(duì)subtype-weslr的貢獻(xiàn)。與DNA甲基化和mRNA相比,miRNA對(duì)subtype-weslr的影響最大。
多組數(shù)據(jù)與單組數(shù)據(jù)
將光譜聚類(lèi)分別應(yīng)用于DNA甲基化、miRNA和mRNA分別命名為SC-methylation、SC-miRNA和SC-mRNA,生成sbutype-weslr作為輸入的堿基聚類(lèi)。圖C顯示,即使subtype-WESLR采用不同的堿基方法,與單一數(shù)據(jù)類(lèi)型相比,多組數(shù)據(jù)的整合更穩(wěn)定,miRNA在發(fā)現(xiàn)DNA甲基化和mRNA聚類(lèi)方面更有用,這與圖B的觀察一致。由于miRNA在光譜聚類(lèi)方面比mRNA和DNA甲基化有優(yōu)勢(shì),研究人員以上述方法為基本方法,在moCluster、iClusterPlus、LRAcluster、spectral clustering和subtype-WESLR中對(duì)miRNA進(jìn)行了實(shí)驗(yàn)。其中的SNF不用作基本方法,因?yàn)樗贿m用于單一數(shù)據(jù)類(lèi)型。
結(jié)果表明,subtype-WESLR也適用于處理單一數(shù)據(jù)類(lèi)型。我們還將任意兩種DNA甲基化miRNA和mRNA結(jié)合,將subtype-WESLR應(yīng)用到數(shù)據(jù)中,分別命名為subtype-WESLR (mRNA+miRNA)、subtype-WESLR (methy+miRNA)和subtype-WESLR (methy+mRNA)。在亞型- weslr (mRNA+miRNA)中,以SC-miRNA和SC-mRNA為基礎(chǔ)方法。Subtype-WESLR (methy+miRNA)和Subtype-WESLR (methy+mRNA)采用相似的方法,Subtype-WESLR (methy+mRNA+miRNA)采用SC-mRNA、SC-methylation和SC-miRNA作為基本方法。與兩種數(shù)據(jù)類(lèi)型的任何組合相比,subtype-WESLR在三種數(shù)據(jù)類(lèi)型上表現(xiàn)更好,并表明集成更多高質(zhì)量的多組數(shù)據(jù)有助于捕獲常見(jiàn)模式。因此,基于多組數(shù)據(jù)的加權(quán)集成基聚類(lèi)可以使用subtype-WESLR得到更穩(wěn)定的聚類(lèi)。
在不同基聚類(lèi)數(shù)下的性能
研究人員還討論了當(dāng)不同數(shù)量的基聚類(lèi)作為輸入時(shí)子類(lèi)型weslr的有效性(圖D)。subtype-WESLR(2)使用moCluster和iClusterPlus作為基本方法,而subtype-WESLR(3)除了使用moCluster和iClusterPlus之外,還使用了LRAcluster,因?yàn)長(zhǎng)RAcluster的性能優(yōu)于moCluster和iClusterPlus。在完整模型即subtype-WESLR中,我們使用SNF、moCluster、iClusterPlus和LRAcluster作為基本方法。從圖D可以看出,subtype-WESLR優(yōu)于subtype-WESLR(2)和subtype-WESLR(3),這意味著性能良好的基聚類(lèi)有助于提高subtype-WESLR的性能。
綜合數(shù)據(jù)的各種實(shí)驗(yàn)表明,subtype-WESLR在發(fā)現(xiàn)多視圖數(shù)據(jù)的公共模式方面具有優(yōu)越性。最后,研究人員研究了得到的子類(lèi)型的一致性。結(jié)果表明,subtype-WESLR每次在合成數(shù)據(jù)上都能識(shí)別出一致的子類(lèi)型。
TCGA數(shù)據(jù)分析
mRNA是多組數(shù)據(jù)中最常見(jiàn)和廣泛使用的,通過(guò)差異表達(dá)基因表達(dá)譜來(lái)識(shí)別癌癥亞型。microRNA是一種小型非編碼rna,可與靶基因mRNA特異堿基互補(bǔ)配對(duì),引起靶基因mRNA降解或抑制其翻譯,廣泛負(fù)調(diào)控靶基因表達(dá)。如果相關(guān)miRNA發(fā)生突變,激活相關(guān)癌基因的表達(dá)或?qū)е乱职┗虻娜笔?,就?huì)導(dǎo)致腫瘤的發(fā)生。DNA甲基化與基因表達(dá)密切相關(guān)。高DNA甲基化常發(fā)生在腫瘤抑制基因的啟動(dòng)子區(qū),低DNA甲基化則發(fā)生在癌基因的啟動(dòng)子區(qū)。因此,DNA異常甲基化常被用作腫瘤診斷、分類(lèi)和治療的重要分子標(biāo)志物。這些不同的數(shù)據(jù)類(lèi)型提供了不同的、部分獨(dú)立的和互補(bǔ)的基因組視圖。研究表明,整合這些多組數(shù)據(jù)有助于亞型鑒定。
研究人員將subtype-WESLR應(yīng)用于8個(gè)公開(kāi)可用的TCGA多視圖數(shù)據(jù)集。這些腫瘤包括腎透明細(xì)胞癌(KIRC)、乳腺浸潤(rùn)癌(BRCA)、結(jié)腸癌(COAD)、皮膚黑色素瘤(SKCM)、肺鱗狀細(xì)胞癌(LUSC)、多形性膠質(zhì)母細(xì)胞瘤(GBM)、卵巢漿液性囊腺癌(OV)和肝肝細(xì)胞癌(LIHC)。每個(gè)腫瘤數(shù)據(jù)集的樣本包含以下數(shù)據(jù)類(lèi)型:miRNA表達(dá)、mRNA表達(dá)、DNA甲基化和臨床概況。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理和歸一化處理,以提高實(shí)驗(yàn)結(jié)果。去除每種數(shù)據(jù)類(lèi)型缺失數(shù)據(jù)超過(guò)20%的樣本。然后進(jìn)行歸一化,最終得到KIRC 206個(gè)樣本,BRCA 623個(gè)樣本,COAD 214個(gè)樣本,SKCM 439個(gè)樣本,GBM 271個(gè)樣本,LUSC 337個(gè)樣本,LIHC 404個(gè)樣本,OV 290個(gè)樣本。由于基因組數(shù)據(jù)存在很大的冗余,因此我們對(duì)每種數(shù)據(jù)類(lèi)型分別使用主成分分析(Principal Component Analysis, PCA),同時(shí)在數(shù)據(jù)整合前保持95%的信息。如何確定腫瘤亞型的數(shù)量是發(fā)現(xiàn)腫瘤亞型的關(guān)鍵。由于比較方法有不同的標(biāo)準(zhǔn)來(lái)確定最佳的子類(lèi)型數(shù)量,所以我們不要求每種方法的子類(lèi)型數(shù)量相同。
采用剪影寬度來(lái)確定subtype-WESLR的最優(yōu)簇?cái)?shù),在- 1和1之,該值越接近1,集群越好。根據(jù)剪影指數(shù)可以得到KIRC的4個(gè)亞型,BRCA的5個(gè)亞型,COAD的4個(gè)亞型,SKCM的5個(gè)亞型,GBM的3個(gè)亞型,LUSC的5個(gè)亞型,LIHC的4個(gè)亞型,OV的3個(gè)亞型。采用moCluster、LRAcluster、SNF和PFA作為T(mén)CGA數(shù)據(jù)的subtype-WESLR的基礎(chǔ)方法。
與以往8個(gè)癌癥隊(duì)列研究的比較
如表所示,在大多數(shù)情況下,subtype-WESLR在8個(gè)癌癥隊(duì)列中發(fā)現(xiàn)了生存差異更顯著的亞型。結(jié)果表明,在大多數(shù)情況下,subtype-WESLR可以根據(jù)p值獲得較高的c指數(shù)。將上述三種數(shù)據(jù)類(lèi)型Kmeans (methy)、Kmeans (miRNA)、Kmeans (mRNA)、Kmeans (all)分別連接起來(lái),分別用于DNA甲基化、miRNA、mRNA和組合數(shù)據(jù)。從表可以看出,整合多組數(shù)據(jù)比單一數(shù)據(jù)類(lèi)型更有優(yōu)勢(shì)。結(jié)果表明,subtype-WESLR在大多數(shù)情況下每次都能識(shí)別出一致的子類(lèi)型。為了直觀地探討不同亞型之間的差異,8種癌癥的生存曲線如圖所示。
針對(duì)上述研究,研究人員選擇了一種癌癥進(jìn)行進(jìn)一步研究
KIRC上已識(shí)別的亞型分析
對(duì)于KIRC,通過(guò)Kaplan Meier生存分析確定并分析了subtype-WESLR的4個(gè)亞型,kmeans (methy)、kmeans (miRNA)、kmeans (mRNA)、iClusterBayes和kmeans (all), NEMO、moCluster、LRAcluster和SNF的3個(gè)亞型,iClusterPlus和PFA的2個(gè)亞型。為了研究subtype-WESLR所鑒定的亞型,進(jìn)行了差異表達(dá)分析,以發(fā)現(xiàn)mRNA表達(dá)和miRNA的表達(dá)差異。在名為KIRC-differential-genes的profile中發(fā)現(xiàn)了一組差異表達(dá)的mRNA,其熱圖如圖所示。差異表達(dá)mrna由任意兩種KIRC亞型的差異表達(dá)mrna組成,因此是所有KIRC亞型的全部差異表達(dá)mrna。
我們可以觀察到,差異表達(dá)的mRNA可以提供任何兩個(gè)亞型之間的直觀區(qū)分,這表明已識(shí)別的亞型是有意義的和可解釋的。為了了解整個(gè)差異表達(dá)mRNA的生物學(xué)作用和潛在功能,研究人員還對(duì)差異基因進(jìn)行了富集分析。
分析其他癌癥隊(duì)列中已確定的亞型
同樣,研究人員又對(duì)BRCA、COAD和SKCM差異表達(dá)的mRNA進(jìn)行KEGG信號(hào)通路富集分析。BRCA的差異mRNA表達(dá)集中在tgf - β信號(hào)通路、p53信號(hào)通路、細(xì)胞色素P450代謝外源性藥物、細(xì)胞周期等KEGG癌相關(guān)通路。COAD的差異mRNA表達(dá)集中在Wnt信號(hào)通路的KEGG癌相關(guān)通路和細(xì)胞色素P450介導(dǎo)的外源性藥物代謝中。SKCM的差異mRNA表達(dá)集中在PI3K-Akt信號(hào)通路、Hippo信號(hào)通路和局灶黏附的KEGG癌相關(guān)通路中。
對(duì)這些腫瘤相關(guān)通路的研究將有助于闡明腫瘤發(fā)生、進(jìn)展和轉(zhuǎn)移的機(jī)制以及相關(guān)靶向藥物的研究。為了驗(yàn)證subtype-WESLR的分型結(jié)果是否合理,研究人員根據(jù)分子分型和分子特征,將結(jié)果亞型與之前BRCA上報(bào)道的亞型進(jìn)行比較。整合不同的組學(xué)數(shù)據(jù)往往會(huì)導(dǎo)致不同的分型結(jié)果。根據(jù)PAM50 RNAseq可將BRCA相關(guān)亞型分為luminal-A、luminal-B、her2富集型、basal-like和normal -like。subtype 2和subtype 3對(duì)應(yīng)basal-like和luminal-A, subtype 1對(duì)應(yīng)luminal-B。her2富集和正常樣不能很好地與已鑒定的亞型對(duì)應(yīng),可能是由于樣本數(shù)量較少。還研究了5個(gè)亞型的年齡分布。亞型2的平均診斷年齡最小,低于亞型3,差異有統(tǒng)計(jì)學(xué)意義。綜上所述,BRCA上所鑒定的亞型是合理的,具有統(tǒng)計(jì)學(xué)解釋意義。
文章小結(jié):
癌癥是一種復(fù)雜多樣的疾病,其異質(zhì)性使得精確的治療勢(shì)在必行。這可以通過(guò)將癌癥患者分為不同的亞型來(lái)實(shí)現(xiàn)。通過(guò)分析與癌癥相關(guān)的基因組數(shù)據(jù)來(lái)確定癌癥亞型的需求越來(lái)越大。在很多癌癥亞型分類(lèi)方法被運(yùn)用之后,本篇文章的研究人員將多種方法結(jié)果結(jié)合起來(lái),通過(guò)多種實(shí)驗(yàn)研究和驗(yàn)證得出一種最優(yōu)方法subtypes-weslr,為之后的癌癥亞型提供了一種新思路。