高通量DNA測序技術(shù)(DNA-seq)是臨床和基礎(chǔ)生物醫(yī)學研究的重要手段之一。作為一種常規(guī)的技術(shù)方法,DNA-seq在多個領(lǐng)域均有廣泛應(yīng)用,例如個體基因分型和變異鑒定,種群和物種水平的基因組特征比較以及基于宏基因組的種群多樣性。近年來,基因組測序由于成本的大幅降低已變得無處不在。這導致現(xiàn)在出現(xiàn)了各種各樣的樣本收集方式、建庫方式、測序化學和下游生物信息分析方法。在本文中,生物分子資源設(shè)施協(xié)會(ABRF)對一些測序平臺(HiSeq/NovaSeq/paired-end 2 × 250-bp chemistry, Ion S5/Proton, PacBio circular consensus sequencing(CCS), Oxford Nanopore Technologies PromethION/MinION, BGISEQ-500/MGISEQ-2000和GS111)在人類和細菌參考DNA樣本的二代測序性能進行了測試。一起來看看吧~
關(guān)于ABRF
ABRF于1989年正式組建,成員包括來自41個國家/地區(qū)、340個不同核心實驗室的1000多位科學家,成員來自工業(yè)界、政府、學術(shù)界以及研究機構(gòu)。ABRF致力于通過研究、交流和教育推進生物技術(shù)實驗室的核心競爭力和研究。
結(jié)果解讀:
實驗設(shè)計框架
在幾個平臺上對人和細菌基因組和靶向外顯子文庫進行了測序,包括5個Illumina平臺、3個Ion Torrent平臺、ONT minion(R9.4和Flongle flow cells)和Proomeion、BGISEQ-500、MGISEQ-2000和GenapSys GS111(圖1A)。由于實驗類型的不同,測序深度從較高基因組覆蓋(接近1,000×平均覆蓋)到較低基因組覆蓋(<1×平均覆蓋)不等。大多數(shù)全基因組序列文庫具有25倍到80倍的平均覆蓋率(圖1B)。Map-rate在平臺內(nèi)是一致的,但在不同平臺之間差異很大。并且作者在Illumina、Ion Torrent、ONT和GenapSys平臺上對3個單獨的細菌物種和1個包含10個細菌物種的宏基因組混合物進行了測序(圖1D)。個體細菌物種和宏基因組測序的物種包括各種各樣的基因組大小、GC含量、革蘭氏染色反應(yīng)和生態(tài)位(或者在某些情況下,例如高鹽分親和力會給捕獲會帶來挑戰(zhàn)),這旨在評價每個平臺克服這些因素的能力。
每臺儀器只使用具有足夠覆蓋范圍的replicates (平均覆蓋深度≥10倍,mapping quality截止為MQ20)和每個replicate的全球平均覆蓋率為25倍來計算整個基因組的覆蓋均衡度。所以,由于覆蓋范圍不夠,此處排除了來自GS111和Flong le和R9.4 Minion Flow cell的replicate。作者發(fā)現(xiàn)覆蓋范圍在各種平臺之間非常一致,包括short和 long reads (圖2A)。另外,作者還總結(jié)了不同環(huán)境下平臺之間的的性能(圖2B)。盡管這些平臺可以根據(jù)覆蓋性能進行分層,但平臺內(nèi)的變化很小 (圖2C)。各平臺比拼:根據(jù)作者的結(jié)果來看各個平臺都有各自的優(yōu)勢:BGISEQ-500、HiSeq4000、NovaSeq 2x150bp捕獲Alu區(qū)域,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕獲L1、L2和低復雜度區(qū)域,PacBio CCS和NovaSeq在微衛(wèi)星區(qū)域和簡單重復區(qū)域,PromethION平臺則在端粒區(qū)域。
根據(jù)UCSC RepeatMasker區(qū)域表征比對讀數(shù)與參考基因組的不一致性比率(即失配率),以評估困難區(qū)域的測序性能(圖3A)。錯配也按GC含量的百分比(圖3B)和每read的堿基位置(圖3C)進行分層。作者也總結(jié)了在均聚物(圖3D)和其他短串聯(lián)重復序列(STR) 區(qū)域的錯誤率,按它們的熵排序,對STR基序的復雜性進行衡量(圖3E)。各平臺比拼:測序錯配率與基因組中GC含量相關(guān)。在GC含量高和低的區(qū)域,各平臺的錯誤率均比較高。錯誤在均聚物重復較高和STR熵較低的區(qū)域更常見。在短讀長測序平臺中,BGISEQ-500、MGISEQ-2000提供的測序錯誤率最低。在錯誤模式上,Genapsys和Nanopore平臺最主要錯誤來源是插入/缺失。其他的平臺的錯誤模式主要集中在核苷酸替代??傊琍acBio CCS平臺的錯誤率最低,而GenapSys的STR錯誤率比其他短讀平臺高。
圖3|估計每個平臺的測序錯誤率
幾個常見的生殖系變異callers在不同軟件進行了比較,包括DeepVariant、GATK HaplotypeCaller、Sentieon Haplotyper和Strelka2用于短讀,以及Clair2用于長讀(圖4A)。與之前的覆蓋和錯配一樣,為了在較難的區(qū)域比較個平臺準確性和重現(xiàn)性,作者對UCSC RepeatMasker類對變體進行了分層 (圖4B)。除了衡量特異性和敏感性外,還記錄了在每個context中捕獲的變異總數(shù),以及SNV (圖4C)和INDELS(圖4D)平臺之間的重疊。作者還通過突變大小可視化了真陽性INDELs的捕獲(圖4E)。各平臺比拼:在SNV的檢出中,BGI的DNBSEQ平臺最為靈敏,最差的是HiSeq4000平臺。在各個平臺中Indel檢測是不相同的,特別是對于插入(缺失在平臺之間更具可比性)。ONT平臺捕獲的比例最低,其次是BGISEQ-500,Illumina HiSeq平臺,然后是PacBio CCS。NovaSeq 6000使用2 × 250-bp read chemistry,是捕獲已知INDELs的最強大的工具。
圖5A顯示了所有數(shù)據(jù)集的總體統(tǒng)計信息,以及每個樣本的SV調(diào)用分布。SV call集在基因組的特定區(qū)域沒有顯示任何聚集,分布在整個基因組中(圖5e)。很明顯,來自SV caller可變性的假陽性主要是由LumPy的SV calls,其次是Delly和Manta(圖5B)。在HiSeq X10上識別的SVs中,共有14.43%(42)是唯一的假陰性,相比之下,HiSeq 4000上識別的SVs為13.90%(36 SVs),HiSeq 2500上的SVsS為8.77%(20)??傮w而言,73.17%的SVs與HG002參考集重疊,表明假陽性數(shù)量較少,replicates之間的一致性較高(圖5e)。各平臺比拼:在各平臺數(shù)據(jù)中,HiSeqX10檢測到SVs數(shù)量最多,其次是HiSeq4000和HiSeq2500。檢出假陽性最多的平臺依次是HiSeq2500,HiSeqX10和HiSeq4000。
作者接下來對于GC差異較大的原核細菌基因組進行了測序分析,包括三種單一菌種和十種細菌的混合物。各樣本分別于MiSeq、Ion PGM和 Ion S5平臺測序。對于宏基因組庫((American Type Culture Collection (ATCC)MSA-3001 Mix),作者發(fā)現(xiàn)在平臺內(nèi)和平臺之間的分類組成都有很大的變化(圖6A)。雖然平臺內(nèi)的復制彼此高度相似(除了Ion Torrent PGM),仍檢測到平臺特定的成分(圖6B)。與測序平臺無關(guān),分類組成明顯受每個分類單元的GC含量的影響(圖6C)。各平臺比拼:細菌基因組捕獲的影響因素主要為菌種差異和測序平臺差異。在各個平臺中,ThermoFisher的Ion PM和S5平臺在錯誤率角度略勝一籌。對于復雜的宏基因組樣本,所有平臺都能夠識別混合物中的所有菌株,但對基因突變的捕獲水平差異較大。
全文總結(jié):
目前,海量的DNA-seq數(shù)據(jù)可以作為一個強大的基準資源,促進臨床應(yīng)用的進一步標準化,以及評估新的方法、化學和方案。但評估大規(guī)模平行DNA-seq平臺的重現(xiàn)性、準確性和實用性仍然是一個挑戰(zhàn)。本文在GIAB、the Global Alliance for Genomic Health和UCSC提供的資源的基礎(chǔ)上,對當前新興測序技術(shù)進行了公正的評估。測評了不同測序技術(shù)和平臺的性能,這些發(fā)現(xiàn)可以為測序平臺的選擇和分析提供重要的參考信息。
參考文獻
[1] J. Foox, S.W. Tighe, C.M. Nicolet, J.M. Zook, M. Byrska-Bishop, W.E. Clarke, M.M. Khayat, M. Mahmoud, P.K. Laaguiby, Z.T. Herbert, D. Warner, G.S. Grills, J. Jen, S. Levy, J. Xiang, A. Alonso, X. Zhao, W. Zhang, F. Teng, Y. Zhao, H. Lu, G.P. Schroth, G. Narzisi, W. Farmerie, F.J. Sedlazeck, D.A. Baldwin, C.E. Mason, Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study, Nat Biotechnol, 39 (2021) 1129-1140.