癌癥中有15%可歸因于病毒感染。Nature communications近日的論文“A deep learning approach reveals unexplored landscape of viral expression in cancer”,提出了一種基于深度學(xué)習(xí)的工具viRNAtrap,對(duì)腫瘤病毒組數(shù)據(jù)進(jìn)行病毒序列識(shí)別和組裝。相比之前基于已知病毒序列比對(duì)的方法,該方法應(yīng)用到TCGA的14種癌癥數(shù)據(jù)中,可發(fā)現(xiàn)以前沒有涉及癌癥的意外的且不同的病毒的表達(dá)。使用viRNAtrap工具還能夠揭示腫瘤組織中人類內(nèi)源性病毒的表達(dá)量與患者存活率低相關(guān)。此外,本文還研究了利用生物信息學(xué)工具來(lái)鑒定和分析癌癥中的病毒,以及乳頭瘤病毒知識(shí)庫(kù)、病毒變異資源和人類內(nèi)源性逆轉(zhuǎn)錄病毒數(shù)據(jù)庫(kù)等數(shù)據(jù)庫(kù)。
論文鏈接:https://doi.org/10.1038/s41467-023-36336-z
1)viRNAtrap的算法架構(gòu)及評(píng)價(jià)
與癌癥有關(guān)的病毒通常分為直接致癌物和間接致癌物,前者通過(guò)病毒致癌基因的表達(dá)驅(qū)動(dòng)致癌轉(zhuǎn)化,而間接致癌物可能通過(guò)與感染和炎癥相關(guān)的突變導(dǎo)致癌癥。迄今為止,已有7種病毒被歸類為人類體內(nèi)的直接致癌物,但對(duì)于間接致癌病毒,則了解不多。測(cè)序技術(shù)的進(jìn)步有助于更好地認(rèn)識(shí)到癌癥中病毒感染的普遍性。然而之前的研究,只是通過(guò)比對(duì)已有的致癌病毒,以及找出病毒整合到宿主基因組的整合位點(diǎn)。
新方法首先訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)嵌入層,卷基層及全連接層,以區(qū)分腫瘤RNA數(shù)據(jù)中未必對(duì)讀中的病毒序列,之后將分類為病毒的讀進(jìn)行組裝,將組裝結(jié)果和已知的病毒數(shù)據(jù)庫(kù)進(jìn)行blast對(duì)比(如圖1a),相比其它病毒序列分類工具,viRNAtrap在訓(xùn)練及測(cè)試數(shù)據(jù)集上的AUC最高(圖1b,c),針對(duì)不同類似的病毒,viRNAtrap的分類準(zhǔn)確度差異較大(圖1d)
圖1,viRNAtrap的訓(xùn)練及評(píng)價(jià)方法
2)viRNAtrap在腫瘤RNA數(shù)據(jù)集上的應(yīng)用
在TCGA已知的14種癌癥中,高危人甲乳頭瘤病毒株(HR-ɑHPVs)與宮頸癌,以及HBV和肝癌的關(guān)系是研究最多的,經(jīng)由viRNAtrap,鑒別出的包含病毒的樣本數(shù)見圖2a,其中對(duì)比了作為對(duì)照的健康組織和腫瘤組織中的包含病毒序列的比例。可以看到對(duì)于HPV和HBV,檢出病毒的樣本大部分為腫瘤組織,且在腫瘤組織中,讀所占的比更大。此外viRNAtrap還在之前認(rèn)為不存在病毒的樣本中檢出了病毒序列,這說(shuō)明了該方法具有高靈敏性。對(duì)于頭頸鱗狀細(xì)胞癌(HNSC),研究還對(duì)比了包含病毒和不包含病毒的樣本,發(fā)現(xiàn)包含病毒的樣本,其TMB和CNA都較低(圖2b),這意味著腫瘤組織自身的變異不多,組織癌變更多可歸因于病毒感染。圖2c對(duì)比了HR-ɑHPVs陽(yáng)性和陰性的頭頸鱗狀細(xì)胞癌患者,發(fā)現(xiàn)HR-ɑHPVs陽(yáng)性患者的整體存活率更低。
圖2 14種腫瘤已知數(shù)據(jù)在viRNAtrap的表現(xiàn)
除了檢測(cè)外源病毒,viRNAtrap還可以檢測(cè)人內(nèi)源性逆轉(zhuǎn)錄病毒在腫瘤組織中的表達(dá)。圖3a展示了TCGA數(shù)據(jù)庫(kù)中14種癌癥樣本,針對(duì)不同類型的逆轉(zhuǎn)錄病毒出現(xiàn)概率的熱圖,可以看到HERV-K家族最近被整合到人類基因組中,是人類基因組中最豐富的HERV家族之一,也是腫瘤組織中表達(dá)比例最高的一類逆轉(zhuǎn)錄病毒。圖3b展示了逆轉(zhuǎn)錄陽(yáng)性和陰性患者的生存曲線,可以看到在多種癌癥上,陽(yáng)性和陰性患者的KM生存曲線差異顯著,結(jié)合圖3a的調(diào)色板,大部分癌癥中,逆轉(zhuǎn)錄病毒出現(xiàn)的概率低于10%,這意味著可基于RNA數(shù)據(jù)逆轉(zhuǎn)錄病毒的出現(xiàn)與否,預(yù)測(cè)患者的生存時(shí)間。圖3c展示了低總生存率相關(guān)的癌癥驅(qū)動(dòng)基因的HERVs通常更有可能在體細(xì)胞突變中表達(dá),如TP53、KRAS、ARID1A和PTEN中。
圖3:viRNAtrap在內(nèi)源逆轉(zhuǎn)錄病毒中的應(yīng)用
針對(duì)一個(gè)包含包括人類、蝙蝠、小鼠、昆蟲、植物和細(xì)菌病毒的數(shù)據(jù)庫(kù),在TCGA的14種癌癥的RNA數(shù)據(jù)中,viRNAtrap發(fā)現(xiàn)了之前未知且未預(yù)料到的病毒感染(圖4a),其中有些來(lái)自植物的病毒,如何進(jìn)入腫瘤組織,仍是未知。對(duì)于IIV31病毒,其在腫瘤組織中出現(xiàn),具有保護(hù)作用,對(duì)應(yīng)著更高的存活率(圖4b),IIV31病毒陽(yáng)性的腫瘤樣本,其TMB和CNA出現(xiàn)的概率也低,這意味著這些樣本中的基因組損傷更小。根據(jù)轉(zhuǎn)錄組數(shù)據(jù)預(yù)測(cè)的T調(diào)節(jié)細(xì)胞和CD8細(xì)胞比例,在IIV31病毒陽(yáng)性樣本中也更多(圖4d)。在IIV31病毒陽(yáng)性的的樣本中,PTEN、CTNNB1和PIK3R1基因上的體細(xì)胞突變與之相關(guān)(圖4e)。研究者還在33個(gè)卵巢癌樣本中鑒定了地桿菌病毒E2的表達(dá);該病毒可能是在高級(jí)別漿液性卵巢癌中表達(dá)最常見的病毒。圖4f展示預(yù)測(cè)為地桿菌陽(yáng)性的COV318細(xì)胞系和作為對(duì)照的OVISE細(xì)胞系之間相對(duì)于GAPDH的表達(dá)量變化,
圖4:viRNAtrap發(fā)現(xiàn)已知在腫瘤中不存在的病毒
3)總結(jié)
從腫瘤RNA測(cè)序中識(shí)別病毒,就有可能發(fā)現(xiàn)新的致癌物質(zhì)和機(jī)制。發(fā)現(xiàn)有助于癌癥發(fā)生和進(jìn)展的新的和不同的病毒物種,對(duì)于開發(fā)新的治療方法至關(guān)重要,包括疫苗接種、早篩和抗菌治療。新提出的viRNAtrap可在不進(jìn)行短序列比對(duì)的前提下,通過(guò)一種集成的方法來(lái)實(shí)現(xiàn)的病毒序列的識(shí)別,通過(guò)組裝可檢出未知的病毒序列,從而提升檢測(cè)的靈敏度,從而有潛力已有數(shù)據(jù)中找出新發(fā)現(xiàn)。
通過(guò)對(duì)來(lái)自TCGA的14個(gè)癌癥組織,使用viRNAtrap檢測(cè)病毒序列,并分析與患者生存率的關(guān)系。發(fā)現(xiàn)雖然已知一些外源性病毒的表達(dá)與提高生存率有關(guān),但人類內(nèi)源逆轉(zhuǎn)錄病毒的表達(dá)與較低的生存率嚴(yán)格相關(guān)。這些發(fā)現(xiàn)可用于輔助癌癥檢測(cè),結(jié)合用藥數(shù)據(jù),可分析藥物效應(yīng)與腫瘤組織病毒出現(xiàn)與否的關(guān)系。針對(duì)逆轉(zhuǎn)錄病毒,結(jié)合內(nèi)源病毒表達(dá)生存率低的發(fā)現(xiàn),未來(lái)還可以研發(fā)靶點(diǎn)為抑制其表達(dá)的抗癌藥物。
由于viRNAtrap的分類算法,是基于人類數(shù)據(jù)訓(xùn)練的,即分類的數(shù)據(jù)是判斷一條讀是來(lái)自人的基因組還是病毒的,未來(lái)可基于其它基因組序列訓(xùn)練更加通用的模型,來(lái)識(shí)別來(lái)自各種其他生物體的病毒,并利用viRNAtrap框架,實(shí)現(xiàn)更高的病毒檢測(cè)靈敏度。