TAPE :一種基于單細(xì)胞轉(zhuǎn)錄組,推測(cè)bulk RNA數(shù)據(jù)中細(xì)胞特異性表達(dá)譜和功能富集的快速算法
Bulk RNA測(cè)序成本低,數(shù)據(jù)量較大,結(jié)合少量來(lái)自同一個(gè)體的單細(xì)胞RNA測(cè)序數(shù)據(jù),可以使用生信方法,推算出樣本中不同細(xì)胞的比例,這一任務(wù)被稱(chēng)為去卷積(deconvolution)。11月8日自然通訊的一篇文章“Deep autoencoder for interpretable tissue-adaptive deconvolution and cell-type-specific gene analysis",介紹了一個(gè)更準(zhǔn)確且更快速的bulk RNA去卷積工具TAPE(組織自適應(yīng)自編碼器),使用該工具訓(xùn)練好的模型,能夠基于bulk RNA數(shù)據(jù)預(yù)測(cè)具有生物學(xué)意義的細(xì)胞特異性表達(dá),從而加速RNA測(cè)序的臨床應(yīng)用。
論文鏈接:https://www.nature.com/articles/s41467-022-34550-9
1 模型的訓(xùn)練及輸出
TAPE的輸入是人或小鼠的單細(xì)胞圖譜以及對(duì)應(yīng)組織bulk RNA數(shù)據(jù),先通過(guò)模擬數(shù)據(jù),將模擬過(guò)程中的細(xì)胞比例當(dāng)成金標(biāo)準(zhǔn),用以訓(xùn)練深度自編碼模型,之后在自適應(yīng)階段,不斷調(diào)整預(yù)測(cè)得出的細(xì)胞比例和不同細(xì)胞類(lèi)型的特征表達(dá)量(圖1a)。
圖1 TAPE 模型的訓(xùn)練過(guò)程(圖1a),TAPE訓(xùn)練好的模型的輸入輸出(圖1b)
模型訓(xùn)練好后,可基于bulk數(shù)據(jù),高精度模式下,可得出n個(gè)樣本,m個(gè)基因上的表達(dá)譜,模型會(huì)產(chǎn)生對(duì)應(yīng)的k(該例子中k=4)個(gè)細(xì)胞的表達(dá)譜,而在全局模式下,可以得出該數(shù)據(jù)中,4個(gè)細(xì)胞類(lèi)型中的差異表達(dá)基因譜。
2)TAPE的性能評(píng)估
在人工生成的pseudo bulk 數(shù)據(jù)中,比較不同方法的性能。對(duì)比的指標(biāo)包括預(yù)測(cè)值和真實(shí)值的一致性相關(guān)系數(shù)(concordance correlation coefficient,CCC)以及平均絕對(duì)誤差(MAE),CCC越高,MAE越低,模型效果越好。圖2c指出對(duì)于常見(jiàn)及罕見(jiàn)表達(dá)的基因,TAPE的表現(xiàn)更好,當(dāng)存在多種細(xì)胞亞型時(shí),例如兩種亞型的B細(xì)胞,TAPE的表現(xiàn)也更好,而在訓(xùn)練的參考數(shù)據(jù)集中缺少一種亞型時(shí),TAPE仍可以預(yù)測(cè)細(xì)胞比例。在真實(shí)數(shù)據(jù)中的表現(xiàn),也是TAPE相對(duì)更好。圖2b展示了不同方法的運(yùn)行時(shí)間隨樣本數(shù)的變化,可見(jiàn)TAPE的運(yùn)行時(shí)間,不會(huì)隨著樣本數(shù)增加而顯著增加??紤]到TAPE是基于深度學(xué)習(xí)的,該方法還可以使用GPU進(jìn)行加速。在GPU上運(yùn)行時(shí),TAPE 的速度與最快的統(tǒng)計(jì)方法相當(dāng),甚至比以前的深度學(xué)習(xí)方法還要快。故此,TAPE 的第一個(gè)優(yōu)點(diǎn)是它在解卷積大量樣本時(shí)的超快推斷。
圖2 TAPE在真實(shí)及模擬數(shù)據(jù)上的性能對(duì)比
之后考察在真實(shí)數(shù)據(jù)中,使用bulk RNA得出具有生物學(xué)意義的細(xì)胞比例,選取的兩個(gè)例子是不同程度的阿茲海默患者以及新冠及新冠且治療患者。在阿茲海默的例子中,TAPE能夠根據(jù)bulk RNA,預(yù)測(cè)出處在不同階段的阿茲海默癥患者,其大腦中神經(jīng)元細(xì)胞的比例下降,膠質(zhì)細(xì)胞的比例升高,癥狀越嚴(yán)重,膠質(zhì)細(xì)胞的比例越高,從而對(duì)應(yīng)臨床觀察(見(jiàn)圖3c)。而在新冠患者中,通過(guò)TAPE的處理,可以發(fā)現(xiàn)正?;颊吲c感染者的免疫血液中的beta細(xì)胞占比,感染者偏低,二經(jīng)過(guò)抗病毒藥物瑞德西韋治療后,beta細(xì)胞的比例回升到正常水平(見(jiàn)圖3d),這同樣符合預(yù)期的生物學(xué)知識(shí)。根據(jù)圖中的標(biāo)準(zhǔn)差error bar,可以看到TAPE預(yù)測(cè)出的結(jié)果,相比其它方法其樣本間差異性更小,說(shuō)明該方法更穩(wěn)健,有潛力應(yīng)用于臨床早篩或療效預(yù)測(cè)。
圖3 TAPE在真實(shí)數(shù)據(jù)(阿茲海默和新冠感染)中,找到具有生物學(xué)意義的細(xì)胞比例差異
不同于已有的深度學(xué)習(xí)去卷積方法只可以預(yù)測(cè)組織內(nèi)的細(xì)胞比例,TAPE還可以自適應(yīng)地預(yù)測(cè)組織特異性的基因表達(dá)譜。具體來(lái)看,TAPE依賴(lài)來(lái)自健康人的bulk RNA單細(xì)胞數(shù)據(jù)進(jìn)行訓(xùn)練,得出的模型可以用于預(yù)測(cè)病理環(huán)境下,各個(gè)細(xì)胞類(lèi)型中特異性的基因表達(dá)譜。
對(duì)上述組織特異表達(dá)譜的驗(yàn)證,基于通過(guò)不同細(xì)胞類(lèi)型真實(shí)(10x單細(xì)胞測(cè)序獲得)與模擬結(jié)果的差異來(lái)衡量。圖4a和b分別展示了模擬和真實(shí)數(shù)據(jù)中,基于TAPE模型預(yù)測(cè)的不同細(xì)胞類(lèi)型的特異性表達(dá)譜和真實(shí)值的一致性,可以看到兩者的一致性較高。從圖3c和d的對(duì)比可看出,在訓(xùn)練過(guò)程中,TAPE通過(guò)自適應(yīng)階段后,使得預(yù)測(cè)的特征表達(dá)譜即保留了原模型的信息,又能夠更好地適應(yīng)新的生物學(xué)背景(即凸顯差異表達(dá)基因),這是該算法的第二個(gè)優(yōu)勢(shì)。
3)TAPE高精度模式找出細(xì)胞間差異表達(dá)基因
TAPE還具有高精度模式,可以預(yù)測(cè)不同類(lèi)型細(xì)胞的特異表達(dá)基因,在圖4e中,模擬生成bulk RNA-seq 數(shù)據(jù)中可檢測(cè)差異表達(dá)基因。顏色表示 AUROC 值,紅色表示更好的分類(lèi)性能。每一行代表bulk RNA數(shù)據(jù)中對(duì)應(yīng)于CD8 T細(xì)胞中隨機(jī)選擇的基因的上調(diào)的倍數(shù)變化,每列代表CD8 T細(xì)胞所占比例。圖4f是TAPE據(jù)此預(yù)測(cè)出的結(jié)果,可以看到除了CD8 T細(xì)胞中,預(yù)測(cè)得到的其余細(xì)胞類(lèi)型間基因表達(dá)差異都不顯著,而CD8 T細(xì)胞的預(yù)測(cè)結(jié)果則與模擬結(jié)果相近,這說(shuō)明TAPE可以較高的準(zhǔn)確性和特異性預(yù)測(cè)特異細(xì)胞類(lèi)型中的差異表達(dá)基因。
在真實(shí)的AD患者bulk RNA數(shù)據(jù)中,考察和AD相關(guān)的NRGN基因的表達(dá),發(fā)現(xiàn)TAPE成功預(yù)測(cè)了該基因在患者的神經(jīng)元細(xì)胞中表達(dá)量會(huì)增加(圖4e),而在下皮層細(xì)胞中不會(huì)增加。圖4h展示了TAPE基于bulk RNA數(shù)據(jù)的檢測(cè)結(jié)果,發(fā)現(xiàn)在原數(shù)據(jù)中RAB11FIP5 基因的表達(dá)量在控制組和BNab組之間只存在細(xì)微差異,但在特定的細(xì)胞類(lèi)型(NK細(xì)胞)中,存在顯著的差異。該結(jié)果與實(shí)驗(yàn)驗(yàn)證的結(jié)果相一致。這些例子都論證了TAPE可基于bulk數(shù)據(jù),預(yù)測(cè)特定細(xì)胞類(lèi)型中的差異表達(dá)基因。
圖4 對(duì)TAPE預(yù)測(cè)細(xì)胞特異性表達(dá)譜的性能進(jìn)行綜合評(píng)估
該研究還將TAPE應(yīng)用于三種類(lèi)型的感染(新冠,HIV,乙肝)的外周血bulk RNA數(shù)據(jù)中,通過(guò)TAPE進(jìn)行細(xì)胞間去卷積之后,可見(jiàn)三種感染對(duì)不同免疫細(xì)胞的影響存在差異,而了解這種差異將可以幫助臨床的診斷及阻止感染發(fā)生。圖5,a展示了對(duì)不同細(xì)胞類(lèi)型,三種感染所帶來(lái)的功能差異,b-d展示了三種感染后的白細(xì)胞,單核細(xì)胞,NK細(xì)胞中,基因表達(dá)譜相同的基因數(shù),可以看到即存在共有的基因,也存在病原特異的基因,e-g是TAPE給出的顯著富集通路的熱圖。從圖5可知,TAPE可識(shí)別每個(gè)樣本的每種細(xì)胞類(lèi)型中特定的激活功能通路,這是該算法的第三個(gè)潛在優(yōu)勢(shì)。
圖5 不同感染情況下,TAPE預(yù)測(cè)得出的各細(xì)胞亞型的特異性功能富集
4)總結(jié)
總結(jié)來(lái)看, 得益于自動(dòng)編碼器的體系結(jié)構(gòu)和自適應(yīng)階段獨(dú)特的訓(xùn)練方法,以及編碼器-解碼器的結(jié)構(gòu),TAPE的可解釋解碼器能夠回答為什么編碼器給出特定的差異性基因,并在高精度模式下給出細(xì)胞特異性的差異基因表達(dá)譜和差異富集通路。這使得研究者可以使用人群水平的bulk RNA測(cè)序,結(jié)合少量的單細(xì)胞測(cè)序,獲得組織異質(zhì)性相關(guān)的生物學(xué)知識(shí)。
TAPE 代表了一個(gè)在細(xì)胞類(lèi)型水平上解釋組織異質(zhì)性,具有通用性的框架,并為監(jiān)督自編碼器執(zhí)行領(lǐng)域自適應(yīng)遷移提供了一個(gè)實(shí)用的訓(xùn)練方案??紤]到它可以與其他工具無(wú)縫集成,我們相信 TAPE 將有助于研究單細(xì)胞數(shù)據(jù)和大量的bulk RNA數(shù)據(jù)之間的聯(lián)系,且具有臨床應(yīng)用的潛力。