在我們分析單細(xì)胞數(shù)據(jù)時(shí),同一類型的細(xì)胞往往來自于不同的細(xì)胞周期階段,這可能對(duì)下游聚類分析產(chǎn)生影響。今天給大家分享的是一篇發(fā)表在Nucleic Acids Research(IF:16.971)上的文獻(xiàn),描述了一種新型的確定單細(xì)胞所處細(xì)胞周期的方法:CCPE。
CCPE:scRNA-seq 數(shù)據(jù)的細(xì)胞周期擬時(shí)間估算[1]
背景介紹
細(xì)胞周期簡(jiǎn)介
細(xì)胞周期(cell cycle)是指細(xì)胞從第一次分裂結(jié)束產(chǎn)生新細(xì)胞到第二次分裂結(jié)束所經(jīng)歷的全過程,分為間期與分裂期兩個(gè)階段。最重要的兩個(gè)特點(diǎn)就是DNA復(fù)制和分裂成兩個(gè)一樣的子細(xì)胞。細(xì)胞周期一般包括四個(gè)階段,分別是G1期、 S期、 G2期和M期(如下圖所示)[2]。在單細(xì)胞數(shù)據(jù)的細(xì)胞周期分析時(shí),通常只考慮三個(gè)階段:G1、S、G2M(即把G2和M當(dāng)做一個(gè)階段)。
scRNA-seq與細(xì)胞周期
目前已經(jīng)開發(fā)的根據(jù)細(xì)胞的轉(zhuǎn)錄譜確定細(xì)胞周期階段的計(jì)算方法可以分為兩大類,分別是knowledge-based(基于先驗(yàn)知識(shí))和unsupervised(無監(jiān)督)?;谙闰?yàn)知識(shí)的方法主要包括scran包的cyclone函數(shù)和Seura中的 CellCycleScoring 函數(shù),利用注釋的細(xì)胞周期基因來估算每個(gè)細(xì)胞在 G1、S 或 G2/M 階段的分類。無監(jiān)督方法主要包括Cyclum和 CYCLOPS等。
cyclone
scran包[3]中的cyclone函數(shù)是利用“marker基因?qū)Α北磉_(dá)來對(duì)細(xì)胞所在周期階段進(jìn)行預(yù)測(cè)的方法。簡(jiǎn)單來說就是將單個(gè)細(xì)胞的轉(zhuǎn)錄譜作為輸入,并提取有關(guān)細(xì)胞周期標(biāo)記的信息。然后使用訓(xùn)練數(shù)據(jù)集中這些基因的表達(dá)譜來訓(xùn)練一種算法,該算法可以計(jì)算獨(dú)立數(shù)據(jù)集中單個(gè)細(xì)胞的細(xì)胞周期階段。cyclone函數(shù)主要需要三個(gè)元素:一個(gè)是sce單細(xì)胞對(duì)象表達(dá)矩陣,一個(gè)是pairs參數(shù),還有一個(gè)是gene.names參數(shù)(詳細(xì)說明可見說明文檔http://bioconductor.org/packages/release/bioc/manuals/scran/man/scran.pdf)。
CellCycleScoring
Seurat包[4]是單細(xì)胞分析最常用、功能最強(qiáng)大的R包,我們可以用其中的CellCycleScoring函數(shù)根據(jù)其G2/M和S期標(biāo)記基因的表達(dá)為每個(gè)細(xì)胞計(jì)算一個(gè)所處周期的分?jǐn)?shù),而不表達(dá)這些標(biāo)記基因的細(xì)胞可能處于G1期。同時(shí)將S和G2/M分?jǐn)?shù),以及G2M,S或G1階段中每個(gè)細(xì)胞的預(yù)測(cè)分類情況存儲(chǔ)在metadata中。如果設(shè)置參數(shù)set.ident = TRUE, CellCycleScoring可以將Seurat對(duì)象中每個(gè)細(xì)胞的分組信息設(shè)置為其所處的細(xì)胞周期階段。
Cyclum
Cyclum[5]是基于python的一種算法,將Cyclum應(yīng)用于消除細(xì)胞周期效應(yīng)有利于更好的描繪細(xì)胞亞群特征,這對(duì)于建立各種細(xì)胞圖譜和研究腫瘤異質(zhì)性非常有用。簡(jiǎn)而言之,Cyclum利用一種自動(dòng)編碼器技術(shù)分析細(xì)胞基因表達(dá)矩陣,該技術(shù)將細(xì)胞投影到非線性周期性軌跡上,與使用線性方法(例如 PCA)相比,可以更準(zhǔn)確地確定周期性過程中的細(xì)胞。 Cyclum 可根據(jù)基因表達(dá)動(dòng)力學(xué)與推斷的周期性之間的匹配程度來識(shí)別與周期性過程相關(guān)的基因。
CYCLOPS
CYCLOPS[6]是利用進(jìn)化守恒和機(jī)器學(xué)習(xí)識(shí)別高維數(shù)據(jù)中的橢圓結(jié)構(gòu)來推斷細(xì)胞所處的細(xì)胞周期,具體步驟是首先在 X 和 Y 維度上繪制了兩個(gè)具有共同頻率的周期性異相基因的表達(dá),在 Z 維度中描繪時(shí)間,然后用隨機(jī)索引替換時(shí)間信息繪制相同的表達(dá)式數(shù)據(jù),再在表達(dá)式空間中繪制相同的數(shù)據(jù),這里會(huì)形成一個(gè)橢圓,最后確定數(shù)據(jù)集中樣本的相對(duì)時(shí)間順序。
構(gòu)建CCPE 數(shù)據(jù)使用
結(jié)果
1. CCPE方法概述
研究人員在這項(xiàng)研究中開發(fā)了CCPE,一種新的細(xì)胞周期擬時(shí)間估算方法,應(yīng)用于從單細(xì)胞 RNA-seq數(shù)據(jù)中表征細(xì)胞周期時(shí)間。具體步驟首先是數(shù)據(jù)的標(biāo)準(zhǔn)化和預(yù)處理(公式:log2(FPKM|TPM|Counts + 1)),然后通過在原始維度和降維維度之間迭代優(yōu)化直到收斂,來學(xué)習(xí)判別螺旋。優(yōu)化后,使用具有兩個(gè)基因維度的3D螺旋來表示細(xì)胞周期階段的循環(huán)信息,并使用一維信息來表示單細(xì)胞的細(xì)胞周期擬時(shí)間。總而言之,CCPE就是將高維 scRNA-seq 數(shù)據(jù)映射到三維空間中的螺旋上,其中2D空間用于捕獲 scRNA-seq 數(shù)據(jù)中的周期信息,而一維空間用于預(yù)測(cè)細(xì)胞沿細(xì)胞周期的時(shí)間順序,即細(xì)胞周期擬時(shí)間(圖1)。
2. 細(xì)胞周期擬時(shí)間的估算
研究人員通過將CCPE應(yīng)用于多種下游分析和不同數(shù)據(jù)分析中,以證明其準(zhǔn)確估算細(xì)胞周期擬時(shí)間和階段的能力。首先是比較CCPE和目前已被使用的一些算法在預(yù)測(cè)細(xì)胞周期擬時(shí)間方面的性能,包括Cyclum、CYCLOPS 和 reCAT。結(jié)果發(fā)現(xiàn)CCPE 和 Cyclum 都可以正確判斷的細(xì)胞周期順序,即從G1到S,再到G2/M。 CYCLOPS和 reCAT也都可以很好地區(qū)分G1和S期,但不能在S期之后以正確的順序表征 G2/M期。與 Cyclum 相比,CCPE在區(qū)分S和G2/M時(shí)期方面表現(xiàn)出更好的性能。研究人員又計(jì)算了CCPE推斷的基因表達(dá)和細(xì)胞周期擬時(shí)間的Pearson相關(guān)性。Aurora激酶 A (Aurka)、polo 樣激酶 1 (Plk1) 和 karyopherin alpha 2 (Kpna2)與細(xì)胞周期假時(shí)間的相關(guān)性最高,且這三個(gè)酶都與細(xì)胞周期密切相關(guān)。同時(shí)又發(fā)現(xiàn)與細(xì)胞周期擬時(shí)間相關(guān)性最高的基因是 G2/M 期標(biāo)記基因,它們都在 G2/M 期高度表達(dá)。見圖2。
3. 細(xì)胞周期階段的判斷
研究人員接著比較了CCPE將細(xì)胞匹配到正確細(xì)胞周期階段與其他模型的能力,這里采用了七個(gè)分類指標(biāo)來評(píng)估模型的性能。CCPE在分析mESCs Quartz-Seq數(shù)據(jù)集中表現(xiàn)出了出色的性能,在所有方法中聚類指標(biāo)值最高(圖3A)。 同時(shí),CCPE在分析E-MTAB-2805 mESCs數(shù)據(jù)集中的能力也表現(xiàn)出色,所有單個(gè)指標(biāo)評(píng)分均排名第一(圖3B)。
4. CCPE 在分析小型 scRNA-seq 數(shù)據(jù)中的性能
為了評(píng)估 CCPE 在具有不同數(shù)量基因和細(xì)胞的數(shù)據(jù)上的性能,尤其是只有少量基因和細(xì)胞的數(shù)據(jù)集,因此研究人員對(duì)包含247個(gè)細(xì)胞的人類胚胎干細(xì)胞單細(xì)胞數(shù)據(jù)集進(jìn)行了評(píng)估。從中選擇了七個(gè)具有不同數(shù)量基因的子數(shù)據(jù)集,范圍從 50 到 600 個(gè)基因,以及五個(gè)具有不同細(xì)胞數(shù)量的子數(shù)據(jù)集(范圍從10到100個(gè)細(xì)胞)。結(jié)果發(fā)現(xiàn) CCPE 和 Cyclum的所有聚類指標(biāo)的中位數(shù)隨著基因數(shù)量的增加而逐漸增加(圖3C),而且CCPE 在七個(gè)聚類指標(biāo)方面始終優(yōu)于 Cyclum。與 Cyclum 相比,CCPE在較少數(shù)量細(xì)胞的數(shù)據(jù)集中也具有更好的性能。隨著細(xì)胞數(shù)量的增加,CCPE的性能逐漸下降并最終穩(wěn)定下來(圖3D)。
5. 基于推斷的細(xì)胞周期階段的差異表達(dá)基因分析
不同細(xì)胞周期階段基因的差異分析可以識(shí)別不同細(xì)胞周期階段之間的基因表達(dá)的差異性。基因富集分析結(jié)果表明,CCPE鑒定的DEGs主要參與細(xì)胞周期通路,并富集在 p53信號(hào)通路、孕酮介導(dǎo)的卵母細(xì)胞成熟和晝夜節(jié)律等生物細(xì)胞周期相關(guān)過程中。 但Cyclum所 鑒定的 DGEs則與細(xì)胞周期關(guān)系不大(圖4A)。圖4B中顯示了四個(gè)G2/M 期標(biāo)記基因 Plk1、Bub3、Cdc20 和 Fzr1的表達(dá)情況看,它們都在細(xì)胞周期途徑中富集。研究人員又進(jìn)一步研究了這些差異表達(dá)的基因是否與細(xì)胞周期相關(guān),進(jìn)一步證實(shí)了CCPE在預(yù)測(cè)細(xì)胞周期階段和識(shí)別細(xì)胞周期相關(guān)基因方面的準(zhǔn)確性(圖4C-D)。
6. CCPE 在處理 scRNA-seq數(shù)據(jù)丟失事件中的性能
由于scRNA-seq 數(shù)據(jù)總是受到許多技術(shù)噪聲源的影響,會(huì)導(dǎo)致出現(xiàn)大量的缺失值,所以研究人員利用三個(gè)模擬數(shù)據(jù)集來評(píng)估CCPE 在處理數(shù)據(jù)丟失方面的穩(wěn)健性。隨著數(shù)據(jù)丟失率的增加,CCPE分離三個(gè)細(xì)胞周期群的性能逐漸下降??梢钥吹?,當(dāng)丟失率小于51.1% 時(shí),CCPE 的表現(xiàn)明顯優(yōu)于 Cyclum 和 CYCLOPS。但當(dāng)丟失率增加到68.8%時(shí),CCPE、Cyclum 和 CYCLOPS在估算細(xì)胞周期階段時(shí)的表現(xiàn)都不佳??傮w而言,CCPE的聚類評(píng)價(jià)指標(biāo)值仍然高于Cyclum和CYCLOPS。上述分析可以表明CCPE 比 Cyclum 和 CYCLOPS的性能更加(圖5)。
7. 利用CCPE分析Nutlin 處理細(xì)胞系數(shù)據(jù)
為進(jìn)一步評(píng)估CCPE的性能,研究人員將其應(yīng)用于經(jīng)過或不經(jīng)過 Nutlin處理的癌細(xì)胞細(xì)胞系數(shù)據(jù)集。Nutlin是一種 MDM2-p53 抑制劑,可誘導(dǎo)細(xì)胞周期停滯。利用CCPE 推斷經(jīng)過 DMSO 和 Nutlin處理的 24 種癌細(xì)胞系的細(xì)胞周期階段,與DMSO處理的對(duì)照組細(xì)胞相比,CCPE檢測(cè)到 Nutlin 處理的 G1 期 TP53 WT 細(xì)胞數(shù)量增加(圖6A)。于是研究人員篩選出7個(gè)TP53 WT細(xì)胞系的數(shù)據(jù)并計(jì)算每個(gè)細(xì)胞周期階段的細(xì)胞數(shù)比率,結(jié)果發(fā)現(xiàn)G1期細(xì)胞顯著增加,這證實(shí)與未處理的對(duì)照相比,Nutlin可以在TP53 WT 細(xì)胞中引起明顯的 G1 停滯(圖6B)。之后研究人員又利用Deseq2 來識(shí)別與 CCPE推斷的細(xì)胞周期階段相關(guān)的DEGs,這些DEGs的富集結(jié)果與細(xì)胞周期有關(guān),例如細(xì)胞周期進(jìn)程的調(diào)節(jié)和細(xì)胞周期 G2/M 檢查點(diǎn)等(圖6C)。上述結(jié)果進(jìn)一步說明了CCPE 在估算細(xì)胞周期階段的準(zhǔn)確性以及在成功檢測(cè)Nutlin處理的TP53 WT細(xì)胞中 G1 停滯的可靠性。
8. 從 scRNA-seq 數(shù)據(jù)中去除細(xì)胞周期效應(yīng)
因?yàn)椴煌芷陔A段的細(xì)胞可能具有完全不同的表達(dá)譜,這會(huì)掩蓋不同細(xì)胞類型之間的表達(dá)差異,并影響細(xì)胞類型的鑒定和scRNA-Seq數(shù)據(jù)后續(xù)的功能分析。所以在文章最后,研究人員還評(píng)估了CCPE 在消除細(xì)胞周期效應(yīng)方面的性能。在去除細(xì)胞周期效應(yīng)后,CCPE可以正確分離兩種表型,并且與原始數(shù)據(jù)相比,數(shù)據(jù)集中的兩種表型之間的差異更加明顯。見補(bǔ)充圖 S11。
總結(jié)
在這項(xiàng)研究中,作者開發(fā)了一種名為CCPE的新型細(xì)胞周期擬時(shí)間估算方法,以準(zhǔn)確表征scRNA-seq數(shù)據(jù)中的細(xì)胞周期時(shí)間。一些細(xì)胞周期估計(jì)方法只使用細(xì)胞周期基因,如cyclone, Seurat和reCAT。cyclone應(yīng)用數(shù)千個(gè)細(xì)胞周期基因?qū)泶_定細(xì)胞的細(xì)胞周期階段。而Seurat,只有少數(shù)S期標(biāo)記基因和 G2M 期標(biāo)記基因用于識(shí)別細(xì)胞周期階段。reCAT利用Cyclebase3中列出的378個(gè)細(xì)胞周期基因來獲得基因表達(dá)矩陣,其他基因則被排除在外。CCPE則是在預(yù)處理過程中使用一種稱為dpFeature的復(fù)雜方法來選擇差異表達(dá)的基因,dpFeature是從數(shù)據(jù)中發(fā)現(xiàn)的重要的再經(jīng)過排序的基因,而不是依賴于文獻(xiàn)中的細(xì)胞周期標(biāo)記基因。CCPE是一種無監(jiān)督機(jī)器學(xué)習(xí)方法,不需要特定細(xì)胞類型或單細(xì)胞測(cè)序方法特定信息作為輸入。因此,CCPE可用于分析各種 scRNA-seq 數(shù)據(jù)。感興趣的小伙伴可以去嘗試一下了~
參考文獻(xiàn)