目前公開數(shù)據(jù)庫中,已有數(shù)以百萬計的轉錄組數(shù)據(jù),然而缺少有效地方法,以利用現(xiàn)有數(shù)據(jù)解釋新的實驗結果。今年6月27日Nature Communication的論文[1],提出一種名為GenomicSuperSignature的計算方法及對應的R/Bioiconductor包。該方法基于來自536項研究,總計44,890個人類 RNA 測序圖譜,通過主成分分析,得到可復制的變異軸(RAV),RAV 使用原始研究的元數(shù)據(jù)和基因組富集分析,對新的表達譜進行注釋。將新數(shù)據(jù)集與 RAV 關聯(lián),能夠提取可解釋的注釋,還可以提供直觀可視化功能。使用 TCGA 和罕見病數(shù)據(jù)集,驗證了該方法可進行高效地數(shù)據(jù)庫搜索,對包含批次效應和異構的訓練數(shù)據(jù)以魯棒的方式進行遷移學習。總結來看GenomicSuperSignature可利用較少的計算資源,在現(xiàn)有數(shù)據(jù)庫的上下文中分析新的基因表達數(shù)據(jù)。
鏈接:https://www.nature.com/articles/s41467-022-31411-3
降維已被廣泛應用于將高維度的轉錄組轉換為數(shù)量較少的代表共表達的潛在變量中,通過這些低維的潛在變量,可檢測生物標志物,例如由共享功能,表達調控、組織成分或細胞類型以及批量效應引起的基因共表達。在這些因素的共同作用下,降維可以解釋新數(shù)據(jù),減少所需多重假設檢驗次數(shù),但也可能導致不完整或誤導性的解釋。通過將新數(shù)據(jù)集中的潛在變量與公共轉錄組數(shù)據(jù)庫中的潛在變量進行比較,可以改進解釋的魯棒性。
GenomicsuperSignature 作為一個探索性數(shù)據(jù)分析工具,將新表達譜經(jīng)過主成分分析得到的PC軸與之前發(fā)布的獨立數(shù)據(jù)集中表示的可復制變異軸(replicable Axes of variable,RAV)的注釋索引進行匹配。由于RAV 作為由多個以前研究得出的,定義良好且可復制的潛變量,可代替從頭開始定義的潛變量,用以遷移學習。通過使用預先構建的、預先注釋的、降維的 RAV,GenomicSuperSignature可以在普通筆記本電腦上,在幾秒鐘內就可以獲得新表達譜的注釋信息。
圖1 :GenomicsuperSignature的模型構建過程,完成聚類后,通過醫(yī)學主題詞注釋(meSH)和基因集富集分析(GSEA)增強 RAVs 的可解釋性。b)加入新表達譜,使用RAVs得到表達譜熱圖,功能注釋詞云圖,對應文獻的元數(shù)據(jù)以及和公開數(shù)據(jù)后的聚類圖。
具體來說,模型構建階段GenomicsuperSignature將來自多個公開數(shù)據(jù)集的轉錄組數(shù)據(jù)進行降維,先得出 10,720 個主成分,之后將這些主成分組合成 4764 個可復制變異軸RAVs,其中1378個包含單一的主成分。之后將新數(shù)據(jù)對應到可復制變異軸上,從而獲得新數(shù)據(jù)的簽名。根據(jù)定義,單元主成分不是一個“可重復”信號,過濾后只剩下3386個 RAVs。故此,我們將來自44,890個樣本的信息壓縮成3386個 RAV,這個數(shù)字小于最初樣本數(shù)量的1/10??紤]到RAVs計算過程中,使用了所有樣本的前90% 變異基因,即只使用了13,934個常見基因。因此,GenomicsuperSignature達到了有效的數(shù)據(jù)壓縮比,使用訓練數(shù)據(jù)的初始容量的約3% 中的RAV,即可保持重要的信息。
為了證明GenomicsuperSignature匹配數(shù)據(jù)集與相關已發(fā)表數(shù)據(jù)集的能力,我們將 RAVs 模型應用于五個 TCGA 數(shù)據(jù)集。根據(jù)這些數(shù)據(jù)集主成分與其生物學意義的相關性,我們確定了乳腺浸潤癌(RAV221和 RAV868)和結腸和直腸腺癌(RAV832)特異性 RAV。當將 RAV模型應用于乳腺浸潤癌(TCGA-BRCA)數(shù)據(jù)集時,RAV221得到了最高的驗證得分(圖2b),驗證數(shù)據(jù)和已有數(shù)據(jù)中BRAC一列的皮爾森相關性也最高(圖2a),經(jīng)過注釋后得到的詞云圖中(圖2c)中,大部分關鍵詞也與乳腺癌有關。
圖2 驗證數(shù)據(jù)集:TCCA數(shù)據(jù)集中BRCA數(shù)據(jù)作為驗證數(shù)據(jù),通過得到的最相近RAV,以及對應的注釋詞云,相關文獻及富集通路
GenomicsuperSignature通過對新數(shù)據(jù)降維,還可以發(fā)現(xiàn)樣本間的亞型,將3567個結直腸癌(CRC)(這些樣本可分為四類CMS腫瘤亞型)作為輸入,可以發(fā)現(xiàn)在RAV834和RAV833上的降維(圖3a),可以清晰地將四種亞型區(qū)分開。
之前的研究,使用1,867個樣本微陣列的PC 聚類亞型評分(PCSS)的連續(xù)評分系統(tǒng),并發(fā)現(xiàn)PCSS發(fā)現(xiàn)的主成分與微衛(wèi)星不穩(wěn)定性(MSI),腫瘤分級,分期和腫瘤位置相關性更密切。對比PCSS的評分和RAV評分與對應臨床病理變量的關聯(lián),在所有四種表型上都比離散的 CMS 表現(xiàn)更好,除了腫瘤部位外,也優(yōu)于 PCSS 。值得注意的是, GenomicsuperSignature僅僅是從 RNA-seq 數(shù)據(jù)中訓練出來的。這意味著,從非結直腸癌特異性數(shù)據(jù)集訓練的 RAV ,在捕獲 結直腸癌相關的生物學相關特征上優(yōu)于使用結直腸癌特異性數(shù)據(jù)庫捕捉到的特征,這表明 GenomicsuperSignature的特征提取具有一般性,可以應用于描述其他疾病。
圖3,a)結直腸癌組織的樣本,經(jīng)過GenomicsuperSignature得到的降維,能夠區(qū)分出不同亞型,b)臨床表型在不連續(xù)的 CMS 亞型和 RAV834/833分配的樣本分數(shù)作為協(xié)變量進行回歸。使用似然比檢驗(LRT)將整個模型與僅包含 CMS 亞型,-log10p-value 接近0,這意味著 CMS 沒有提供額外的信息。c)使用 PCSS1/2和 RAV834/833分配的樣本評分作為協(xié)變量進行與圖(b)中相同的回歸,并計算似然比
由于實驗技術原因,RNA數(shù)據(jù)集往往包含缺失的信息或隱藏在噪聲中的信號。通過利用現(xiàn)有的數(shù)據(jù)庫,GenomicSuperSignature 可以通過揭示新數(shù)據(jù)集的弱生物屬性或間接測量的生物屬性來填補這些空白。為了評估 GenomicSuperSignature 的遷移學習上的應用,我們比較了兩個不同數(shù)據(jù)集:8-紅斑性狼瘡全血(SLE-WB)23和多血管炎患者鼻刷樣本的 RAVs 對嗜中性粒細胞計數(shù)的估計。結果發(fā)現(xiàn)RAV1551注釋對應的通路關鍵詞包含噬中性粒有關,而該RAV上的嗜中性粒細胞計數(shù)有關(圖a)??紤]到嗜中性粒細胞是終末分化的細胞類型,在活性基因表達譜中可能檢測不到,因此我們使用 MCPCounter估計嗜中性粒細胞的值,這樣得出兩者的相關性更高(圖b)。圖c中,將從多血管炎(GPA)患者的肉芽腫病中獲得的鼻刷樣本得到的基因表達譜,通過GenomicSuperSignature降維后,發(fā)現(xiàn)RAV1551上的位置任然與嗜中性粒細胞的個數(shù)有關,這表明 RAV 可以作為一種新的方法來比較不同的數(shù)據(jù)集,并對潛在的生物信號提供解釋。
圖3,使用紅斑性狼瘡全血和多血管炎患者鼻刷樣本,說明經(jīng)過降維后得到的RAV1551與嗜中性粒細胞計數(shù)呈正相關。
從使用來看,預先構建的模型大大減少了用戶的計算需求: GenomicSuperSignature模型在24個內存為128Gb 的核上訓練需要幾天時間,而使用它進行注釋程序可以在傳統(tǒng)的筆記本電腦上幾秒鐘內完成,GenomicSuperSignature作為 R/Bioiconductor 軟件包和 Galaxy 工具,允許隨時將其納入廣泛使用的 RNA-seq 分析流程,并使大型研究團體能夠重用公共數(shù)據(jù),以便對新數(shù)據(jù)進行更準確的分析。
總結來看,GenomicSuperSignature包含從大量現(xiàn)有轉錄組中學到的信息,這些信息可以“遷移”到新的表達譜數(shù)據(jù)中 。GenomicSuperSignature得到的RAV由多個已發(fā)布數(shù)據(jù)集的獨立分析中重復觀察到的主成分組成,與之前的數(shù)據(jù)整合方法相比,該策略可識別小型訓練數(shù)據(jù)集的潛在變量,并忽略在多個數(shù)據(jù)集中,由未觀察到的技術因素導致的偏差。結合發(fā)表引文、 MeSH 術語和基因集,得到的注釋包含從大量現(xiàn)有研究中學到的信息。GenomicSuperSignature可對表達譜進行功能和富集通路注釋,并能放映生物學功能,例如對應不同的亞型及連續(xù)表型。