癌癥亞型的鑒定是開發(fā)個(gè)性化治療的關(guān)鍵步驟。而經(jīng)由RNA剪切,可以區(qū)分不同癌癥亞型,Nature Communication的新論文“A Bayesian model for unsupervised detection of RNA splicing based subtypes in cancers”提出了的無(wú)監(jiān)督亞型判別算法CHESSBOARD,可基于RNA數(shù)據(jù)中的可變剪切信息進(jìn)行癌癥亞型鑒定。使用該方法對(duì)幾個(gè)白血病數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)其得出的亞型分類是可重復(fù)的,調(diào)查了相關(guān)的驅(qū)動(dòng)調(diào)節(jié)因素及已知白血病相關(guān)突變的關(guān)系,可論證得出分型的生物學(xué)意義。CHESSBOARD 的潛在臨床應(yīng)用包括,補(bǔ)充基于突變的診斷分析和發(fā)現(xiàn)新的剪接圖譜,以改善藥物反應(yīng)的相關(guān)性研究。
論文地址:https://www.nature.com/articles/s41467-022-35369-0
Chessboard算法概述
Chessboard的輸入,是從患者RNA測(cè)序中得到的從患者支持各個(gè)基因可變剪接的read條數(shù)(圖1a),稱其為局部剪切變異(LSV)。匯總多個(gè)樣本的結(jié)果,記錄每個(gè)樣本中支持跨越外顯子的read的條數(shù),得到可變剪切矩陣。Chessboard算法,會(huì)根據(jù)可變剪切矩陣,進(jìn)行聚類,以識(shí)別出樣本中的不同的亞型(圖1b)。算法分為三步,第一步過濾,過濾掉太少的樣本中觀察到的低表達(dá)基因,只保留那些在樣本間普遍出現(xiàn)且存在顯著差異大基因(圖1c),之后的MCMC(馬爾科夫鏈蒙特卡洛)通過對(duì)輸入數(shù)據(jù)矩陣的進(jìn)行阻塞吉布斯采樣,以迭代的方式使亞型判斷方法具有更高的可行性的可變剪切基因(圖1d),之后對(duì)分型結(jié)果計(jì)算邊緣后驗(yàn)分布并進(jìn)行可視化(圖1e)。
圖1 CHESSBOARD 的流程圖
2)Chessboard在癌癥亞型區(qū)分上的應(yīng)用
為驗(yàn)證Chessboard的性能,在 beatAML12數(shù)據(jù)集上測(cè)試Chessboard。該數(shù)據(jù)集包含了急性髓系白血病患者的RNA測(cè)序數(shù)據(jù),樣本量 477,局部剪切變異基因 2299個(gè)。該算法檢測(cè)到一個(gè)由217個(gè)樣本和1910個(gè) LSVs 組成的聚簇(圖2a)在另一個(gè)白血病數(shù)據(jù)集Penn HTSC使用Chessboard,可得出相似的結(jié)果(圖2b)。此外,屬于兩組數(shù)據(jù)集中,每個(gè)組的LSV中位數(shù)高度相關(guān)(圖2c),說(shuō)明該方法找到的亞型在不同批次的數(shù)據(jù)間是穩(wěn)定的。
圖2 BeatAML上使用Chessboard的分析結(jié)果
之后驗(yàn)證分型是否具有生物學(xué)意義,通過比較chessboard分出的亞型的可變剪切,是否隨亞型的不同,具有不同的RNA結(jié)合蛋白調(diào)節(jié)(RPB)模式。與在 ENCODE 的 RBP 敲除實(shí)驗(yàn)中觀察到的差異剪接中,有17個(gè)和chessboard區(qū)分出的亞型有關(guān),所有17個(gè)RBP之間,都區(qū)分度亞型間都存在顯著差異(圖2d),且其中差異最明顯的兩種結(jié)合蛋白調(diào)節(jié)基因SRSF1和 U2AF2,已知在癌組織的抗凋亡中發(fā)揮功能, 由此指出該算法的分型結(jié)果具有生物學(xué)意義。圖2e是對(duì)chessboard識(shí)別的LSV,按照用 GSEA v. 4.1.0進(jìn)行的功能注釋,得到的富集基因情況。
3)Chessboard可在新增數(shù)據(jù)模式下運(yùn)行
當(dāng)新數(shù)據(jù)加入后,可能會(huì)產(chǎn)生新的癌癥亞型,這就需要亞型算法能夠以增量模式運(yùn)行,通過迭代的方式不斷更新分型結(jié)果。Chessboard支持進(jìn)行遞歸聚類,將前一部分的聚類結(jié)果作為已知情況處理。圖3a展示了對(duì)beatAML 進(jìn)行遞增式計(jì)算的結(jié)果,最初的結(jié)果是所有樣本都為未區(qū)分(白色),之后是隨著算法的迭代,未分類樣本所占比例降低,直到所有樣本被分為不同亞型。圖3a還展示了不同亞型的患者中 FLT3-ITD (p < 0.001) ,NPM1(p < 0.001)和 CEBPA (p = 0.025)三個(gè)可變剪切情況差異顯著的基因,其中突變富集情況經(jīng)過置換測(cè)試顯著對(duì)應(yīng) p 值。這3個(gè)基因的突變已知和AML分型相關(guān),這意味著該方法用于分型的基因具有生物學(xué)意義。圖3b展示了遞歸深度對(duì)分型的影響,表明該樣本只包含2個(gè)分型,進(jìn)一步的遞歸不會(huì)產(chǎn)生新的分型。
圖3,使用遞歸模式在beatAML數(shù)據(jù)集上測(cè)試Chessboard
4)Chessboard的臨床應(yīng)用,預(yù)測(cè)藥物反應(yīng)
只針對(duì)70個(gè)與AML用藥相關(guān)的基因上的可變剪切,使用chessboard分型,可得到和上文分析(圖2a)類似的結(jié)果(圖4a)。這意味著無(wú)監(jiān)督方法chessboard基于可變剪切信號(hào),在不直接捕獲的突變時(shí),隱含地捕捉了這些基因的生物學(xué)意義。通過圖4b中展示的那些基因只在一種亞型中出現(xiàn),說(shuō)明了模型具有可解釋性,即說(shuō)明了那些基因上的可變剪切更為重要。圖4c展示了該算法可以根據(jù)分出的亞型,判定是否可對(duì)患者用Sorafenib 治療的決策樹。圖4d展示了不同分組患者對(duì)Sorafenib的效應(yīng)率的AUC,不同組之間差異顯著,圖4c的決策樹可解釋36.8%的差異。其中表現(xiàn)出良好藥物反應(yīng)的組(FLT3-ITD + 和背景)富集異常剪接(55/66例患者) ,而反應(yīng)差的組(FLT3-ITD-和信號(hào))富集正常剪接(152/169)。 圖4e具體展示了兩個(gè)亞型中的可變剪切事件發(fā)生在那個(gè)外顯子上,之后的散點(diǎn)圖展示了可變剪切與基因表達(dá)率之間的關(guān)系。以上分析說(shuō)明,可基于chessboard預(yù)測(cè)癌癥患者的藥物效應(yīng),從而指導(dǎo)個(gè)性化用藥。
圖4 chessboard預(yù)測(cè)臨床反應(yīng)的結(jié)果
5)CHESSBOARD對(duì)復(fù)雜亞型的區(qū)分
之前研究發(fā)現(xiàn)在兒童和成人的急性白血病(AML)中,存在很多遺傳差異。將 CHESSBOARD 應(yīng)用于由 TARGET 兒科 AML 和 beatAML 樣本組成的聯(lián)合數(shù)據(jù)集,分出了五個(gè)亞型(圖5),其中C1,C2和 C4代表兒童 AML,C3和 C5代表成人 AML 。一部分可變剪切事件( LSVs) 分別對(duì)成人(綠色)和兒童(藍(lán)色) AML 是獨(dú)特的。其他 LSVs 或者在每種疾病類型的亞型之間共享(黃色) ,或者僅對(duì)一種疾病的單一亞型(紫色)獨(dú)有。許多這些剪接變異發(fā)生在基因,通常兒童和成人疾病類型對(duì)應(yīng)的差異突變基因。
將 CHESSBOARD 應(yīng)用于 TARGET b-ALL (B 細(xì)胞急性淋巴性白血病)數(shù)據(jù)(樣本 = 517,LSVs = 1562) ,這是一種明顯與AML不同類型的白血病。與 beatAML 數(shù)據(jù)集的結(jié)果相比,該算法識(shí)別出了五個(gè)具有明顯更復(fù)雜的聚簇。值得注意的是,一個(gè)確定的亞組富集的患者,其中RUNX1-ETV6融合陰性者有高復(fù)發(fā)率,該突變經(jīng)常被用作一個(gè)積極的預(yù)后標(biāo)志。這表明與該突變有關(guān)的剪切標(biāo)記也可被視作是臨床指導(dǎo)指標(biāo)。
圖5 CHESSBOARD 在AML 和b-ALL上的亞型區(qū)分
總結(jié)
CHESSBOARD是第一個(gè)用于異質(zhì) RNA-seq 數(shù)據(jù)中,基于 RNA 剪接進(jìn)行聚類的定制算法。通過在白血病患者RNA seq數(shù)據(jù)的應(yīng)用,展示了其可用于藥物反應(yīng)預(yù)測(cè),患者預(yù)后分類。該算法分型依據(jù)的基因,對(duì)應(yīng)已知的相關(guān)通路,具有生物學(xué)意義。將 CHESSBOARD 應(yīng)用于大型異構(gòu)癌癥數(shù)據(jù)集中的許多其他分析任務(wù),進(jìn)一步推動(dòng)多組學(xué)數(shù)據(jù)的相互印證,增加對(duì)可變剪接在復(fù)雜疾病中所發(fā)揮的作用的理解。