對于單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),除了常規(guī)的分析,還能夠看點突變(SNV)的在不同細(xì)胞間的區(qū)分。近期Science Advance的論文“scAllele: A versatile tool for the detection and analysis of variants in scRNA-seq”介紹的ScAllele,就是一款針對單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)開發(fā)的多用途變異檢測分析工具。
論文地址:https://www.science.org/doi/10.1126/sciadv.abn6398
1)算法概述
可變剪切是RNA高級分析中的一項關(guān)鍵任務(wù),圍繞可變剪切帶來的剪切異構(gòu)體(splicing isoform),以及位于調(diào)控區(qū)的點變異導(dǎo)致的表達量差異,都有著臨床價值。在bulk RNA測序數(shù)據(jù)中,檢測點變異的方式,是對比對結(jié)果,使用在WGS分析中常用的GATK或Freebayes去做變異檢測。然而在單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中,由于數(shù)據(jù)的稀疏導(dǎo)致已有方法無法進行變異檢測。
scAllele不僅可以在測序深度較低時,檢測單堿基突變與小的缺失刪除。通過將read聚類之后進行局部組裝,之后基于變異所在位置的特征(如串聯(lián)重復(fù)、附近序列的堿基質(zhì)量、整體等位基因比率和RNA感知的單倍型擬合)對變異的真假進行打分,綜合判斷變異是否為真,再利用外顯子區(qū)域變異的read和內(nèi)含子區(qū)域的變異計算互信息,判斷是否存在變異特異性剪切,具體如下圖所示:
圖1 scAllele的算法概述
之后在標(biāo)準(zhǔn)品GM12878上,驗證scAllele的準(zhǔn)確性。測試數(shù)據(jù)為smart-seq檢測的全長單細(xì)胞轉(zhuǎn)錄本數(shù)據(jù),對比的方法為常見的變異檢測工具,分別是GATK HC,Platypus 及freebayes。評價指標(biāo)為檢出的真陽性位點的個數(shù),將區(qū)域分為所有區(qū)域,高可信度區(qū)域,ONT測出的變異以及NGS難以檢出的區(qū)域,考慮不同的假陽性值。可以從圖2A和B上看出,如論對于單堿基變異還是插入刪除,scAllele檢出的真陽性位點個數(shù),在檢出同等個數(shù)的假陽性是都更高,這說明scAllele能夠準(zhǔn)確檢出變異。圖c展示了對于經(jīng)過一代測序驗證的插入變異,scAllele能夠全部檢出,但其它的算法則無法全部都檢出,這進一步說明了ScAllele能夠檢出更全的變異。
2)準(zhǔn)確性驗證
圖2;使用金標(biāo)準(zhǔn)評價scAllele進行變異檢測的準(zhǔn)確性
針對單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)測序深度較低的問題,作者還評價了在不同深度下scAllele檢出的真陽性位點的個數(shù),從圖c可看出,不論對于單堿基變異還是小的插入刪除,在深度小于5層時,scAllele能夠檢出的真陽性變異更多。而在深度10層以上后,由于單細(xì)胞測序的稀疏性,導(dǎo)致沒有區(qū)域能測得這么深,故檢出的變異數(shù)趨近于0。對于雜合型變異,scAllele檢出的變異的堿基比例,相比其他方法,也更接近理論預(yù)期的正態(tài)分布。
3)真實數(shù)據(jù)中的應(yīng)用
之后,在兩個真實的單細(xì)胞轉(zhuǎn)錄組(肺癌細(xì)胞與正常細(xì)胞的配對)中,使用scAllele進行變異檢測,在總計96個細(xì)胞的數(shù)據(jù)上可高效完成分析(使用36 CPU時,可以在3小時內(nèi),以14G內(nèi)存完成)。在更多細(xì)胞數(shù)時,可以通過切分染色體并行加速。
scAllele能夠檢出大量新發(fā)突變(無法通過dbSNP數(shù)據(jù)庫進行注釋),尤其是在插入刪除類的變異中(由于之前的方法難以檢出這類變異);相比具有特定突變,因此被數(shù)據(jù)庫收錄的癌細(xì)胞,正常細(xì)胞中檢出的新發(fā)突變所占比例更高(圖3A),癌細(xì)胞在檢出的變異在記錄癌癥相關(guān)變異COSMIC數(shù)據(jù)庫中被更多地收錄。在對檢出的變異進行了功能注釋后,可看出正常細(xì)胞(C)與癌癥細(xì)胞(CE)的變異組成有顯著差異。癌細(xì)胞的變異有更大比例富集在外顯子和3‘UTR區(qū)域(圖3B),外顯子區(qū)域在改變蛋白質(zhì)序列、產(chǎn)生新抗原或調(diào)節(jié)基因表達方面的潛在作用,而鑒于3′UTRs中存在大量的調(diào)控元素(32),這些區(qū)域的遺傳變異可能會改變許多過程,如mRNA的穩(wěn)定性、翻譯或mRNA的定位,這些都應(yīng)在未來進行研究。
通過IGV,對比對結(jié)果進行可視化,可以看出兩個變異特異的可變剪切事件(圖3c)。在檢測的細(xì)胞數(shù)增加后,scAllele檢出的變異連鎖事件數(shù)在癌細(xì)胞和正常細(xì)胞中都會增加(圖3d);而通過對五個超高測序深度的單細(xì)胞轉(zhuǎn)錄組進行降采樣,可以看到在深度降低時,檢出的變異間連鎖事件會減少(圖3e),這說明了單細(xì)胞測序要想檢出連鎖變異,需要較高的測序深度。而通過將多個細(xì)胞的數(shù)據(jù)混合后找出的連鎖變異和單個細(xì)胞進行對比,發(fā)現(xiàn)在混合數(shù)據(jù)中檢出的連鎖變異,(圖3f)只有42.6%可在單細(xì)胞中檢出,這說明了盡管將多個細(xì)胞的測序數(shù)據(jù)混合,能夠識別出某些類型的連鎖變異,但也會導(dǎo)致漏檢,這說明了需要采取單細(xì)胞轉(zhuǎn)錄組的必要性。
圖3 對兩對肺癌細(xì)胞與配對的正常細(xì)胞的單細(xì)胞轉(zhuǎn)錄組通過scAllele進行變異檢測得到的結(jié)果
在找出連鎖變異后,scAllele可以據(jù)此找出變異特異性剪切,圖4a展示了正常細(xì)胞和癌細(xì)胞中找到的變異特異性剪切,可看到癌細(xì)胞中有更多的變異特異性剪切,癌細(xì)胞和正常細(xì)胞間的變異特異性剪切基本沒有重合,從在多個細(xì)胞間出現(xiàn)相同變異特異性剪切的個數(shù)來看,可看到細(xì)胞間存在顯著的差異性。之后可以根據(jù)是否只在癌細(xì)胞中出現(xiàn),將變異特異性剪切分為條件相關(guān)與無關(guān)兩種(圖4c),而大部分變異特異性剪切,只在癌細(xì)胞中出現(xiàn)(圖4b),且大部分只在單個細(xì)胞中出現(xiàn)。將找到的變異特異性剪切所在的基因進行GO注釋(圖4d),可以判斷其生物學(xué)意義,例如癌細(xì)胞相關(guān)的變異特異剪切,最多發(fā)生在MHC,基因損害修復(fù)及TNFR調(diào)控上。
圖4 scAllele檢出的變異特異剪切具有條件特異性,能對應(yīng)到特定的生物學(xué)功能
4)總結(jié)
scAllele在基于單細(xì)胞轉(zhuǎn)錄組變異體檢測方面優(yōu)于其他流行的方法,尤其是對之前難以檢出的小的插入刪除類變異,scAllele的算法建立在局部組裝的基礎(chǔ)上,通過將read對齊,糾正了每個read中可能出現(xiàn)的測序錯誤,從而提高了變異檢測精度。此外,scRNA-seq的聯(lián)合變異檢測模式,通過將多個同類細(xì)胞的數(shù)據(jù)混合在一起進行變異檢測利用了數(shù)據(jù)中多個細(xì)胞的可用性。scAllele在保留單個細(xì)胞水平上變異信息的同時,能在考慮到每個細(xì)胞的單一和聯(lián)合分析的情況下給出最佳的變異檢測結(jié)果。而將scAllele應(yīng)用于肺癌scRNA數(shù)據(jù)后,可以找出很多新發(fā)的突變,并找出單細(xì)胞中特異的變異特異性剪切,考慮到對可變剪切現(xiàn)象,之所以沒有得到充分的探索,很大一部分是由于缺少合適的分析工具,scAllele彌補了這一空缺,并擴展了單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的分析范圍,使研究者可以對每個細(xì)胞的遺傳景觀和基因表達復(fù)雜性的潛在遺傳驅(qū)動因素進行分析。