2021年1月份,尼古拉斯團(tuán)隊(duì)在Nature Biotechnology(IF:36.558)發(fā)表Delineating copy number and clonal substructure in human tumors from single-cell transcriptomes,他們開發(fā)了一種整合的貝葉斯分段算法,稱為非整倍體腫瘤拷貝數(shù)核型分析(CopyKAT),用于估算高通量scRNA-seq基因組拷貝數(shù)譜,以區(qū)分腫瘤微環(huán)境中的正常細(xì)胞與惡性腫瘤細(xì)胞,識(shí)別主要的克隆亞群。
這個(gè)算法和以往的inferCNV和HoneyBadger相比,可以直接根據(jù)拷貝數(shù)譜區(qū)分正常細(xì)胞和腫瘤細(xì)胞,并且更適用于新的單細(xì)胞測(cè)序技術(shù)。文章詳細(xì)介紹了該算法的原理和流程,并表明該算法應(yīng)用于各種實(shí)體瘤和不同的測(cè)序技術(shù)。讓我們來詳細(xì)看一看吧。
背景
單細(xì)胞轉(zhuǎn)錄組分析被廣泛用于研究人類腫瘤。然而,如何區(qū)分腫瘤微環(huán)境中的正常細(xì)胞與惡性細(xì)胞,以及如何識(shí)別腫瘤中的克隆亞結(jié)構(gòu),仍是一個(gè)挑戰(zhàn)。一個(gè)有效方法是鑒定細(xì)胞非整倍體拷貝數(shù)譜,因?yàn)榻^大多數(shù)的人類腫瘤細(xì)胞都是非整倍體(88%),而正常人類基質(zhì)細(xì)胞均是二倍體。
先前的方法——inferCNV和HoneyBadger,是針對(duì)第一代scRNA-seq技術(shù)設(shè)計(jì)的(具有較低的細(xì)胞通量和較高的覆蓋深度)。而新開發(fā)的高通量scRNA-seq技術(shù)進(jìn)行全轉(zhuǎn)錄組擴(kuò)增,只對(duì)mRNA的3’或5’端進(jìn)行稀疏覆蓋,具有較高的細(xì)胞通量和較低的覆蓋深度。此外,inferCNV和HoneyBadger不能準(zhǔn)確地解析特定染色體斷點(diǎn)的基因組位置,也不能根據(jù)非整倍體拷貝數(shù)譜正確分類腫瘤細(xì)胞和正常細(xì)胞。
而CopyKAT克服了這些缺點(diǎn),研究者可以直接使用該方法,輸入測(cè)序得到的單細(xì)胞表達(dá)數(shù)據(jù),就可以得到正常細(xì)胞和腫瘤細(xì)胞的預(yù)測(cè)結(jié)果,并且了解這些腫瘤細(xì)胞的哪些基因組區(qū)域發(fā)生了變化。而將計(jì)算的拷貝數(shù)譜(基因型信息)和我們常規(guī)的表型分析結(jié)合起來,可以更加深刻的了解腫瘤細(xì)胞惡性表達(dá)程序。
數(shù)據(jù)及代碼:
數(shù)據(jù):GSE148673
代碼:https://github.com/navinlabcode/copykat(包括測(cè)試數(shù)據(jù))
(所以不懂算法的原理和流程不要害怕,安裝R包后一行代碼就可以得到計(jì)算結(jié)果,我們只要對(duì)算法有一個(gè)粗略的了解就可以啦。)
主要內(nèi)容
一、CopyKAT 方法的整體流程
二、CopyKAT方法效能評(píng)估
為了評(píng)估CopyKAT的效能,對(duì)于來自3’端scRNA-seq(10X)測(cè)序的1480個(gè)乳腺癌細(xì)胞,作者分別使用CopyKAT和inferCNV計(jì)算拷貝數(shù)譜。同時(shí)提取該患者的數(shù)百萬個(gè)腫瘤細(xì)胞進(jìn)行bulk DNA測(cè)序,計(jì)算全基因組的bulk DNA拷貝數(shù)譜作為真實(shí)標(biāo)準(zhǔn)。
通過多種方法比較,結(jié)果顯示,相比inferCNV方法,CopyKAT與bulk DNA拷貝數(shù)譜具有較高的一致性(Pearson correlation= 0.82),其估計(jì)的拷貝數(shù)譜更接近DNA拷貝數(shù)狀態(tài)(p<0.001)(圖2g);在不同大小的基因間斷下,CopyKAT的穩(wěn)定性也明顯高于infer CNV(圖2h)。在合適的基因組分辨率下(5 Mb),CopyKAT可以通過scRNA-seq精確推斷DNA拷貝數(shù)的狀態(tài)。
三、CopyKAT在不同實(shí)體瘤中的應(yīng)用
作者將CopyKAT應(yīng)用于先前發(fā)表的5例胰腺癌的9,717個(gè)細(xì)胞、5例三陰性乳腺癌的8,944個(gè)細(xì)胞、5例甲狀腺未分化癌患者的19,568個(gè)細(xì)胞的3’端scRNA-seq數(shù)據(jù)中(10X)。分別計(jì)算了它們的拷貝數(shù)譜,并在每個(gè)個(gè)體中成功識(shí)別了非整倍體腫瘤細(xì)胞亞群和二倍體的正常細(xì)胞亞群,并和通過特異性基因表達(dá)標(biāo)記識(shí)別的結(jié)果相驗(yàn)證??傊?,CopyKAT可以在不需要特異性基因表達(dá)標(biāo)記的情況下,僅根據(jù)scRNA-seq數(shù)據(jù)推斷的非整倍體拷貝數(shù)譜,準(zhǔn)確地(98%±3% s.d)區(qū)分多種實(shí)體腫瘤中的腫瘤細(xì)胞和正常細(xì)胞。
四、CopyKAT適用于多種單細(xì)胞測(cè)序技術(shù)
在確定CopyKAT方法適用3’ 端的高通量scRNA-seq數(shù)據(jù)后,作者進(jìn)一步研究該方法適不適用其他的測(cè)序技術(shù)(SMART-seq2或高通量的5’端scRNA-seq技術(shù))。作者對(duì)2例雌激素受體陽(yáng)性侵襲的導(dǎo)管癌(ER+ IDC)患者進(jìn)行5’端高通量單細(xì)胞RNA測(cè)序(10X), 同時(shí)還選取了SMART-seq2測(cè)序的兩例GBM患者的scRNA-seq數(shù)據(jù)(GSE131928,先前發(fā)表)。
在ER+ IDC中,CopyKAT推斷的結(jié)果和scRNA-seq表達(dá)數(shù)據(jù)的聚類結(jié)果一致(圖4b,d)。這驗(yàn)證了CopyKAT預(yù)測(cè)的準(zhǔn)確性。在GBM中,CopyKAT推斷的非整倍體腫瘤細(xì)胞簇表達(dá)了高水平的EGFR(圖4f,h),這是GBM個(gè)體中已建立的腫瘤細(xì)胞標(biāo)記物。這些數(shù)據(jù)結(jié)果表明了CopyKAT與廣泛的測(cè)序技術(shù)兼容。
五、結(jié)合腫瘤的基因型和表型
為了刻畫腫瘤的克隆亞結(jié)構(gòu)并將腫瘤基因型與表型聯(lián)系起來,作者將CopyKAT應(yīng)用于三個(gè)TNBC個(gè)體的scRNA-seq數(shù)據(jù)。根據(jù)拷貝數(shù)差異,對(duì)推斷出的拷貝數(shù)譜進(jìn)行聚類,識(shí)別克隆亞群體。并計(jì)算每個(gè)簇的一致性拷貝數(shù)譜,以識(shí)別拷貝數(shù)差異的基因組區(qū)域。根據(jù)這些亞克隆的一致性譜,對(duì)不同的亞克隆群體進(jìn)行差異表達(dá)分析和基因signature分析,以確定亞克隆之間的表型差異。
文末小結(jié)
尼古拉斯作為腫瘤進(jìn)化領(lǐng)域的大牛,以往著重于單細(xì)胞DNA方面的分析。這次開發(fā)的CopyKAT方法,在scRNA-seq識(shí)別拷貝數(shù)譜、分類腫瘤細(xì)胞和正常細(xì)胞、刻畫克隆亞結(jié)構(gòu)方向,提供了一個(gè)強(qiáng)大的自動(dòng)化的工具。文章首先介紹了CopyKAT算法的原理和計(jì)算流程;接著對(duì)比inferCNV和bulk DNA-seq的識(shí)別結(jié)果,評(píng)估CopyKAT方法的效能;然后將該算法應(yīng)用于不同的癌型、不同的測(cè)序技術(shù)下,驗(yàn)證了CopyKAT算法的廣泛的適用性;最后使用CopyKAT算法識(shí)別三個(gè)乳腺癌患者的克隆亞結(jié)構(gòu),聯(lián)系腫瘤細(xì)胞的基因型和表型,為研究者研究腫瘤細(xì)胞的惡性表達(dá)程序提供了一個(gè)新的方向。
所以,最簡(jiǎn)單的,我們可以單純的使用該方法區(qū)分腫瘤細(xì)胞和正常細(xì)胞,以方便我們研究腫瘤細(xì)胞和正常細(xì)胞的差異;更進(jìn)一步,在腫瘤研究中,研究者可以結(jié)合差異表達(dá)分析、GSVA分析和識(shí)別的腫瘤細(xì)胞的拷貝數(shù)譜,研究基因型和表型之間的聯(lián)系;難度更大一點(diǎn),還可以利用識(shí)別的拷貝數(shù)譜,推測(cè)克隆亞結(jié)構(gòu),研究腫瘤進(jìn)化。