今天給大家分享的是2022年2月份發(fā)表在Briefings in Bioinformatics(IF=13.994)一篇文章,文章主要講解了一種能夠精準(zhǔn)識別特異性亞細(xì)胞群的計(jì)算方法。
LRcell: detecting the source of differential expression at the sub-cell-type level from bulk RNA-seq data
LRcell:從RNA-seq數(shù)據(jù)中在亞細(xì)胞水平上檢測差異表達(dá)來源
1.摘要:
鑒于大多數(shù)組織由豐富多樣的(亞)細(xì)胞類型組成,RNA-seq分析中一個(gè)重要但尚未解決的問題是確定差異表達(dá)發(fā)生在哪些(亞)細(xì)胞類型上。單細(xì)胞RNA測序(scRNA-seq)技術(shù)可以回答這個(gè)問題,但它們通常是費(fèi)力費(fèi)錢。在這里,作者介紹了LRcell,這是一種旨在識別在RNA-seq實(shí)驗(yàn)中觀察到變化的特定(亞)細(xì)胞類型的計(jì)算方法。此外,LRcell提供了從scRNA-seq實(shí)驗(yàn)計(jì)算的預(yù)嵌入標(biāo)記基因作為執(zhí)行分析的選項(xiàng)。作者進(jìn)行了一項(xiàng)模擬研究,以證明LRcell的有效性和可靠性。使用三個(gè)不同的真實(shí)數(shù)據(jù)集,作者表明LRcell成功識別出與精神疾病有關(guān)的已知細(xì)胞類型。將LRcell應(yīng)用于RNA-seq結(jié)果可以產(chǎn)生一種關(guān)于哪些(亞)細(xì)胞類型有助于差異表達(dá)的假設(shè)。LRcell是對細(xì)胞類型反卷積方法的補(bǔ)充。
2.研究背景
在實(shí)驗(yàn)條件之間尋找差異表達(dá)基因(differentially expressed genes,DEG)是了解表型變異分子基礎(chǔ)的有力方法。然而,大多數(shù)組織由數(shù)十甚至數(shù)百種不同的(亞)細(xì)胞類型組成,而DEG可能只出現(xiàn)在這些(亞)細(xì)胞類型的一小部分中,這與實(shí)驗(yàn)條件有關(guān)。RNA-seq數(shù)據(jù)無法揭示驅(qū)動(dòng)DEG的(亞)細(xì)胞類型。單細(xì)胞技術(shù)的快速發(fā)展和普及導(dǎo)致來自不同組織類型的單細(xì)胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)(scRNA-seq)的大量積累。這些數(shù)據(jù)揭示了不同細(xì)胞類型之間轉(zhuǎn)錄調(diào)控的巨大差異,并為重要生物過程的修飾提供了前所未有的近距離視角,特別是對于疾病病理學(xué),包括哪些細(xì)胞類型驅(qū)動(dòng)DEG。例如,在最近對阿爾茨海默病(Alzheimer’s disease,AD)的單細(xì)胞分析中,Mathys等人確定了響應(yīng)AD病理學(xué)的神經(jīng)膠質(zhì)-神經(jīng)元相互作用。在另一項(xiàng)單細(xì)胞研究中,Ruzicka等人發(fā)現(xiàn)神經(jīng)元是精神分裂癥受影響最大的細(xì)胞類型。
在過去的10年中,許多計(jì)算細(xì)胞類型去卷積方法已經(jīng)被開發(fā)出來,它們能從轉(zhuǎn)錄組數(shù)據(jù)中推斷不同(亞)細(xì)胞類型的比例,還進(jìn)行了基準(zhǔn)研究以比較它們的性能。在這項(xiàng)研究中,作者提出了一種名為LRcell的新型計(jì)算工具。鑒于RNA-seq差異表達(dá)(differential expression,DE)的研究結(jié)果,LRcell的目標(biāo)是描繪組織的哪些(亞)細(xì)胞類型在兩種實(shí)驗(yàn)條件之間發(fā)生了重大變化。LRcell是在假設(shè)兩種實(shí)驗(yàn)條件之間的一種或幾種亞細(xì)胞類型發(fā)生的表達(dá)變化是在大塊組織水平觀察到的DEG主要貢獻(xiàn)者假設(shè)下開發(fā)的。細(xì)胞類型反卷積方法并非旨在推斷此類變化。利用從公開數(shù)據(jù)中獲得的scRNA-seq中鑒定的細(xì)胞類型特異性標(biāo)記基因,LRcell通過查找組織中所有(亞)細(xì)胞類型的標(biāo)記基因富集程度來實(shí)現(xiàn)目標(biāo)(圖1)。因此,scRNA-seq實(shí)驗(yàn)不需要匹配RNA-seq實(shí)驗(yàn)條件。當(dāng)將LRcell應(yīng)用于各種RNA-seq差異表達(dá)時(shí),作者成功地識別出與精神疾病發(fā)病機(jī)制有關(guān)的已知(亞)細(xì)胞類型,并產(chǎn)生可測試的新假設(shè),這些假設(shè)有可能產(chǎn)生新的生物學(xué)見解。
圖1 LRcell工作流程。LRcell從對照病例的特定組織RNA-seq實(shí)驗(yàn)中提取結(jié)果作為輸入。為了便于說明,假設(shè)組織中有三種(亞)細(xì)胞類型,LRcell可以考慮從這三種(亞)細(xì)胞類型的scRNA-seq實(shí)驗(yàn)中獲得標(biāo)記基因。將標(biāo)記基因映射到整個(gè)基因列表中,按照DE p值排序。接下來,對于每種組織類型,應(yīng)用回歸分析。當(dāng)以標(biāo)記基因的二元指標(biāo)作為響應(yīng)變量時(shí),作者進(jìn)行l(wèi)ogistic回歸(LR);當(dāng)使用Marques等人的方法產(chǎn)生的標(biāo)記基因富集分?jǐn)?shù)作為響應(yīng)變量時(shí),作者進(jìn)行線性回歸(LiR)。在這兩種情況下,解釋變量是-log轉(zhuǎn)化后的DE p值。接下來,計(jì)算回歸分析的顯著性,并將其轉(zhuǎn)換為-log變換FDR并繪制曲線。在本例中,LRcell結(jié)果顯示A型細(xì)胞最顯著,說明A型細(xì)胞在對照病例實(shí)驗(yàn)中發(fā)揮重要作用。
3.結(jié)果和討論
在這項(xiàng)工作中,作者從多個(gè)已發(fā)布的scRNA-seq數(shù)據(jù)集中收集并整理了一系列標(biāo)記基因。然后,對多個(gè)RNA-seq DE實(shí)驗(yàn)進(jìn)行LRcell分析,以證明其實(shí)用性。
3.1標(biāo)記基因收集和來源
在一種(亞)細(xì)胞類型與其天然狀態(tài)下的其他細(xì)胞類型之間表現(xiàn)出顯著差異的基因被視為標(biāo)記基因。與基因集富集分析(Gene Set Enrichment Analysis,GSEA)的基因集類似,LRcell需要一份高質(zhì)量細(xì)胞類型標(biāo)記基因的綱要。目前,LRcell軟件包為用戶提供了來自人類血液、人類大腦和小鼠大腦的多個(gè)標(biāo)記基因集(圖2A),這些標(biāo)記基因集是使用Marques等人研究中介紹的方法從scRNA-seq數(shù)據(jù)集計(jì)算而來的。此外,LRcell軟件包提供由分子特征數(shù)據(jù)庫(Molecular Signatures Database,MSigDB)收集的具有特定標(biāo)準(zhǔn)的外部細(xì)胞標(biāo)記。外部標(biāo)記均來自人類物種,包括中腦、臍帶血、卵巢和骨骼肌。作者將所有細(xì)胞類型特異性標(biāo)記基因集存儲到另一個(gè)名為LRcell Type Markers的R Bioconductor Experiment Hub包中。
圖2 LRcell數(shù)據(jù)集和標(biāo)記基因在大腦不同區(qū)域重疊。(A)標(biāo)記基因已預(yù)先嵌入LRcell的所有組織類型的總結(jié)。(B)來自小鼠全腦scRNA-seq數(shù)據(jù)集的熱圖說明了FC區(qū)域內(nèi)細(xì)胞類型之間標(biāo)記基因的重疊。以小膠質(zhì)細(xì)胞為例說明這三種(亞)細(xì)胞類型之間的相似性。(C)顯示FC細(xì)胞類型和小腦CB細(xì)胞類型之間標(biāo)記基因重疊的熱圖。(D)顯示FC細(xì)胞類型和海馬細(xì)胞類型之間標(biāo)記基因重疊的熱圖。
3.2選定標(biāo)記基因的特性
由于Marques等人提出的方法不考慮DEG倍數(shù)變化,因此探索所選標(biāo)記基因所表現(xiàn)出的倍數(shù)變化是有意義的。計(jì)算了它們所代表的(亞)細(xì)胞類型中每個(gè)標(biāo)記基因相對于其他細(xì)胞類型的倍數(shù)變化,并繪制了每種(亞)細(xì)胞類型的log10轉(zhuǎn)換倍數(shù)變化。作者觀察到絕大多數(shù)這些標(biāo)記基因顯示出對某些神經(jīng)元(亞)細(xì)胞類型的預(yù)期顯著變化。
3.3模擬設(shè)置
由于DEG和細(xì)胞類型比例變化的基本事實(shí)難以監(jiān)測和跟蹤,作者進(jìn)行了模擬研究以證明LRcell的有效性。在這項(xiàng)模擬研究中,作者考慮了患者和對照之間的實(shí)驗(yàn),涉及DEG和比例變化。作者模擬單細(xì)胞和大量RNA-seq數(shù)據(jù)。這兩種類型的數(shù)據(jù)都是由scDesign2使用成年小鼠額葉皮層(frontal cortex,F(xiàn)C)scRNA-seq數(shù)據(jù)集作為參考生成的,作者使用之前從數(shù)據(jù)集中獲得的標(biāo)記基因來進(jìn)行LRcell分析。為簡單起見,作者在模擬研究中考慮了兩種情況:(1)在條件變化期間所有(亞)細(xì)胞類型的比例保持不變,并且在一種特定的細(xì)胞類型中發(fā)現(xiàn)了DEG;(2)病例和對照的(亞)細(xì)胞類型比例不同,在任何(亞)細(xì)胞類型中均未發(fā)現(xiàn)DEG。在每種情況下,作者都嘗試模擬不同的組合。在第一種情況下,作者考慮以下設(shè)置:(a)細(xì)胞類型比例分布;(b)細(xì)胞總數(shù);(c)在該特定(亞)細(xì)胞類型中出現(xiàn)的DEG數(shù)量;(d)DEGs的倍數(shù)變化方向。在第二種情況下,作者考慮以下組合:(a)細(xì)胞類型比例分布;(b)細(xì)胞總數(shù);(c)特定(亞)細(xì)胞類型的比例變化。此外,當(dāng)有更多(亞)細(xì)胞類型時(shí),為了推動(dòng)LRcell性能范圍,作者模擬了有5、10和15個(gè)(亞)細(xì)胞類型的情況,并改變了以各種方式均勻分布的基線比例。
3.4模擬結(jié)果
對于模擬研究,作者輪流改變每個(gè)單獨(dú)的(亞)細(xì)胞類型,然后運(yùn)行LRcell或MuSiC并跟蹤改變的(亞)細(xì)胞類型的等級作為性能指標(biāo)。因?yàn)樵诘谝环N情況下,沒有比例變化,所以作者不測試MuSiC的性能。LRcell能夠正確識別大多數(shù)(亞)細(xì)胞類型的變化。出現(xiàn)錯(cuò)誤識別的情況是DEG數(shù)最少的情況(換句話說,模擬1000個(gè)DEG時(shí))。對于第二種情況,作者比較了LRcell、MuSiC和GSEA(使用標(biāo)記基因作為基因集)。作者觀察到MuSiC在所有設(shè)置下都表現(xiàn)穩(wěn)定,而LRcell會(huì)產(chǎn)生一些錯(cuò)誤。這是完全可以預(yù)料的,因?yàn)樵搱鼍胺螹uSiC的假設(shè),但不符合LRcell的假設(shè),因?yàn)樗皇羌?xì)胞類型比例反卷積方法。作者還在有更多(亞)細(xì)胞類型的情況下比較了LRcell、MuSiC和GSEA。作者注意到,當(dāng)有10種(亞)單元類型時(shí),LRcell和MuSiC工作得同樣好,而當(dāng)有15種(亞)單元類型時(shí),LRcell的表現(xiàn)略好于MuSiC。特別是,對于比例增加20%的1000個(gè)細(xì)胞的設(shè)置,LRcell和MuSiC都檢測到不正確但相似的(亞)細(xì)胞類型。在所有設(shè)置下,LRcell和MuSiC的表現(xiàn)都優(yōu)于GSEA。
3.5小膠質(zhì)細(xì)胞在神經(jīng)退行性癡呆中高度富集
在模擬研究之后,作者在真實(shí)數(shù)據(jù)分析中進(jìn)行了LRcell。在最近的一項(xiàng)神經(jīng)退行性癡呆研究中,Swarup及其同事使用RNA-seq將表達(dá)tau突變體的TPR50小鼠與野生型小鼠進(jìn)行了對比,以識別介導(dǎo)癡呆的基因網(wǎng)絡(luò)(隨后的小鼠AD研究)。為了識別與該病癥最相關(guān)的細(xì)胞類型,作者使用來自成年小鼠FC區(qū)域的預(yù)嵌入標(biāo)記基因?qū)Rcell應(yīng)用于DEG列表。從LRcell結(jié)果,作者觀察到小膠質(zhì)細(xì)胞表現(xiàn)出高度顯著性(圖3A),這與之前的研究一致。此外,F(xiàn)C_11-3未知和FC_11–4未知(亞)細(xì)胞類型也顯示出高水平的顯著性。然而,所有細(xì)胞簇中標(biāo)記基因的成對比較表明,這兩個(gè)未知細(xì)胞簇與FC_11-1有相當(dāng)大的重疊,F(xiàn)C_11-1也是一種小膠質(zhì)細(xì)胞類型(圖2B),這解釋了作者觀察到的模式。
圖3 將LRcell應(yīng)用于實(shí)際案例。(A)LRcell將大量神經(jīng)退行性癡呆DEGs映射到小鼠大腦FC區(qū)域的結(jié)果。(B)使用LRcell(小鼠大腦FC)中的相同標(biāo)記基因作為輸入,繪制大面積神經(jīng)退行性癡呆DEGs的GSEA結(jié)果。(C)用MuSiC計(jì)算對照和疾病樣本的細(xì)胞類型比例。(D)LRcell將大量PTSD DEGs映射到人類PBMC的結(jié)果。(E)使用LRcell(人類PBMC)中的相同標(biāo)記基因作為輸入,GSEA結(jié)果將大量PTSD DEGs映射到人類PBMC。(F)用MuSiC計(jì)算對照和病例樣本的細(xì)胞類型比例。
3.6 CD16+單核細(xì)胞在創(chuàng)傷后應(yīng)激障礙中高度富集
在最近的一項(xiàng)研究中,Breen及其同事使用從美國海軍陸戰(zhàn)隊(duì)收集的外周血白細(xì)胞進(jìn)行了一項(xiàng)大規(guī)模的全轉(zhuǎn)錄組研究,其中一些在部署后出現(xiàn)了創(chuàng)傷后應(yīng)激障礙(posttraumatic stress disorder,PTSD)(之后的人類PTSD研究)。使用這個(gè)數(shù)據(jù)集,作者生成了一個(gè)DEG列表,這些DEG顯示了PTSD組和對照組在部署前時(shí)間點(diǎn)之間的顯著差異。使用來自外周血單核細(xì)胞(PBMC)的單細(xì)胞轉(zhuǎn)錄組學(xué)研究的人類標(biāo)記基因,LRcell分析發(fā)現(xiàn)注釋為CD16+非經(jīng)典單核細(xì)胞的細(xì)胞在PBMC的所有細(xì)胞類型中顯示為最重要的(圖3D)。作者的發(fā)現(xiàn)具有生物學(xué)意義,因?yàn)槿缦惹暗难芯克?,異質(zhì)性存在于由CD16表面蛋白區(qū)分的單核細(xì)胞中,非經(jīng)典單核細(xì)胞已被證實(shí)可調(diào)節(jié)創(chuàng)傷中的免疫反應(yīng)。
3.7來自不同地區(qū)或時(shí)間點(diǎn)的標(biāo)記基因
要應(yīng)用LRcell,一個(gè)重要的問題是使用哪個(gè)標(biāo)記基因組,即如何選擇組織來源與轉(zhuǎn)錄組研究中描述的組織類型相匹配的單細(xì)胞RNA-seq數(shù)據(jù)。這對于大腦等復(fù)雜組織尤為重要。為了解決這個(gè)問題,作者以小鼠AD研究為例,其中包含來自四個(gè)大腦區(qū)域的信息:皮質(zhì)、海馬(hippocampus,HC)、小腦(cerebellum,CB)和腦干。為了了解標(biāo)記基因如何在大腦區(qū)域之間變化,作者首先定義大腦所有區(qū)域的標(biāo)記基因以探索它們的空間模式(圖2C和D)。作者觀察到來自不同區(qū)域的神經(jīng)膠質(zhì)細(xì)胞,例如星形膠質(zhì)細(xì)胞,具有更多的重疊標(biāo)記基因,這表明整個(gè)大腦的神經(jīng)膠質(zhì)細(xì)胞的同質(zhì)性。相比之下,神經(jīng)元和中間神經(jīng)元在不同的大腦區(qū)域共享很少的標(biāo)記基因。然后,作者將來自FC、HC和CB的預(yù)嵌入成年小鼠腦標(biāo)記基因分別應(yīng)用于從皮層、HC和CB獲得的大量DEG。作者觀察到小膠質(zhì)細(xì)胞在所有三個(gè)大腦區(qū)域都高度富集,而星形膠質(zhì)細(xì)胞的含量在CB中特別高。特別是當(dāng)CB標(biāo)記基因應(yīng)用于CB bulk DE實(shí)驗(yàn)時(shí),作者注意到一種(亞)細(xì)胞類型的星形膠質(zhì)細(xì)胞比其他類型的細(xì)胞高度富集。作者的觀察表明,所選擇的細(xì)胞類型在空間上是異質(zhì)性的;這意味著標(biāo)記基因不僅對細(xì)胞類型具有高度特異性,而且對細(xì)胞所屬的區(qū)域也具有高度特異性。由于這一發(fā)現(xiàn),使用位于緊密匹配的大腦區(qū)域的細(xì)胞類型標(biāo)記基因來運(yùn)行LRcell是非??扇〉?。作者也很好奇從非正常樣本進(jìn)行的scRNA-seq實(shí)驗(yàn)中選擇的標(biāo)記基因是否可以作為參考。為了解決這個(gè)問題,作者使用了來自HIV疫苗研究的數(shù)據(jù),作者觀察到細(xì)胞類型特異性標(biāo)記基因的表達(dá)在同一細(xì)胞類型(如CD8細(xì)胞)內(nèi)的不同時(shí)間點(diǎn)上大多是一致的,并且在不同細(xì)胞類型之間是不同的。作者還嘗試使用從不同時(shí)間點(diǎn)收集的樣本中鑒定的標(biāo)記基因進(jìn)行LRcell分析,并觀察到富集信號幾乎相同。因此,盡管LRcell中使用的默認(rèn)標(biāo)記基因是從對照樣本中收集的,但作者認(rèn)為,當(dāng)來自正常樣本的scRNA-seq數(shù)據(jù)不可用時(shí),從非正常樣本中鑒定的標(biāo)記基因是可以接受的。
3.8與GSEA的比較
GSEA是一個(gè)強(qiáng)大的工具,可以在比較兩種生物條件時(shí)確定預(yù)定義的基因集是否顯示出一致的表達(dá)變化。通過將細(xì)胞類型特異性標(biāo)記基因視為預(yù)定義的基因組,可以用GSEA代替LRcell來識別DEG驅(qū)動(dòng)的細(xì)胞類型。為了比較這兩種方法的性能,作者使用GSEA重復(fù)小鼠AD研究和人類PTSD研究中所做的分析。GSEA結(jié)果來源于小鼠AD研究。小鼠AD研究的GSEA結(jié)果(圖3B)產(chǎn)生了幾種同樣重要的(亞)細(xì)胞類型,包括星形膠質(zhì)細(xì)胞、內(nèi)皮細(xì)胞、小膠質(zhì)細(xì)胞、壁細(xì)胞、少突膠質(zhì)細(xì)胞和多突膠質(zhì)細(xì)胞。關(guān)聯(lián)意義導(dǎo)致難以確定哪些(亞)細(xì)胞類型可能參與癡呆發(fā)病機(jī)制。在人類PTSD研究的GSEA結(jié)果中觀察到類似模式(圖3E),這表明單核細(xì)胞、樹突狀細(xì)胞和一些T(亞)細(xì)胞類型同樣豐富?;谏鲜鲇^察,作者得出結(jié)論,LRcell比GSEA更有效地識別在DE實(shí)驗(yàn)中受條件變化影響最大的(亞)細(xì)胞類型。
3.9 LRcell的特異性、魯棒性和運(yùn)行時(shí)間
評估LRcell是否表現(xiàn)出良好的特異性(即低假陽性率)是有意義的。為此,作者模擬了在任何(亞)細(xì)胞類型中都沒有顯著DEG的空場景。當(dāng)將LRcell應(yīng)用于這種空的RNA-seq數(shù)據(jù)時(shí),發(fā)現(xiàn)LRcell產(chǎn)生的結(jié)果要么沒有,要么更少,而且顯著性更弱,說明LRcell靈敏度良好。為了分析LRcell穩(wěn)健性,作者從兩個(gè)角度進(jìn)行實(shí)驗(yàn):(i)標(biāo)記基因的數(shù)量是否強(qiáng)烈影響LRcell結(jié)果和(ii)不同的DEGs檢測方法是否影響LRcell結(jié)果。作者首先在人類PTSD研究中使用源自PBMC scRNA-seq數(shù)據(jù)集的不同標(biāo)記基因數(shù)進(jìn)行LRcell,作者得到了類似的富集性能,這表明了LRcell分析的穩(wěn)健性。除了DESeq2,使用Voom和Limma對小鼠AD研究和人類PTSD研究進(jìn)行DEG分析。在相同的標(biāo)記基因設(shè)置下,作者注意到富集模式與FC_11-1相似。小膠質(zhì)細(xì)胞與其他(亞)細(xì)胞類型一起高度富集。此外,作者分析了不同模擬場景下LRcell、GSEA和MuSiC之間的執(zhí)行時(shí)間,觀察到LRcell和GSEA穩(wěn)定快速,而MuSiC執(zhí)行時(shí)間隨著參考單元數(shù)量的增加而增加。
4.結(jié)論:
總之,作者利用新出現(xiàn)的scRNA-seq數(shù)據(jù)開發(fā)了LRcell,這是一個(gè)R Bioconductor包,利用新出現(xiàn)的scRNA-seq數(shù)據(jù),識別在比較轉(zhuǎn)錄組研究中驅(qū)動(dòng)變化的(亞)細(xì)胞類型。LRcell的基本原理是相信修飾細(xì)胞類型的標(biāo)記基因傾向于向DEG列表的頂部(或底部)富集。作者在各種實(shí)驗(yàn)條件下應(yīng)用LRcell進(jìn)行全面調(diào)查,并成功識別在小鼠AD研究和人類PTSD研究中發(fā)揮重要作用的細(xì)胞類型。因此,作者相信LRcell可以為研究人員在(亞)細(xì)胞類型水平的生物學(xué)變化來源提供重要的和新的生物學(xué)見解,而無需進(jìn)行昂貴且費(fèi)力的scRNA-seq實(shí)驗(yàn)。作者從模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)中得出的結(jié)果表明,LRcell與細(xì)胞類型去卷積方法是互補(bǔ)的。因此,作者建議將LRcell納入RNA-seq分析,以全面了解復(fù)雜組織內(nèi)(亞)細(xì)胞類型水平發(fā)生的變化。
參考文獻(xiàn):Ma W, Sharma S, Jin P, et al. LRcell: detecting the source of differential expression at the sub-cell-type level from bulk RNA-seq data[J]. Brief Bioinform. 2022,23(3):1-11.