今天小編來介紹一篇今年3月剛發(fā)表在nature communications(IF: 17.694)雜志上的文章。該文基于單細(xì)胞測(cè)序數(shù)據(jù),主要提出了一個(gè)全面的泛癌 TME 細(xì)胞類型分類器——scATOMIC。
Pan-cancer classification of single cells in the tumour microenvironment
scTOMIC能夠降低TME多細(xì)胞系統(tǒng)的轉(zhuǎn)錄組復(fù)雜性,以改善細(xì)胞分類。還能夠以高分辨率準(zhǔn)確識(shí)別TME駐留細(xì)胞,分離癌癥和正常組織細(xì)胞并確定腫瘤的來源。
通過scRNA-seq分析各種免疫細(xì)胞和基質(zhì)細(xì)胞在癌癥中的功能,目前有很多成熟穩(wěn)定的科學(xué)見解。然而,能夠標(biāo)準(zhǔn)化單個(gè)惡性細(xì)胞識(shí)別的自動(dòng)化方法依舊空缺,細(xì)分腫瘤亞型的方法也并非一站式。因此,有了本文所提出的scTOMIC的誕生。
本文采用的數(shù)據(jù)為19種常見癌癥類型的癌細(xì)胞系的scRNA-seq以及不同外周血細(xì)胞的CITE-seq數(shù)據(jù)集(蛋白質(zhì)組學(xué)和轉(zhuǎn)錄組學(xué))。另外還有從幾個(gè)腫瘤和正常組織來源收集的基質(zhì)細(xì)胞scRNA-seq??傮w而言,scTOMIC的訓(xùn)練參考數(shù)據(jù)集中包含301662個(gè)細(xì)胞。
相關(guān)代碼的鏈接已放置在了文末。
一、模型的設(shè)計(jì)與開發(fā)
首先需要了解的是RHC-REP,它是作者提出的一種為了反向分層分類(reversed hierarchical classification)和重復(fù)消除親屬節(jié)點(diǎn)(parental nodes)方法。
它的具體作用是在分類任務(wù)的集合中減少了細(xì)胞類型的廣度。RHC-REP將優(yōu)先選擇對(duì)被詢問細(xì)胞類型具有最高特異性的特征。
那么接下來,我們正式進(jìn)入scATOMIC模型的構(gòu)建:
1.作者基于泛癌的TME層次結(jié)構(gòu)(每個(gè)父節(jié)點(diǎn)代表一組相關(guān)細(xì)胞,每個(gè)終端節(jié)點(diǎn)代表一個(gè)感興趣的單細(xì)胞類別)訓(xùn)練了24個(gè)隨機(jī)森林模型,對(duì)應(yīng)于父節(jié)點(diǎn)的總數(shù)。模型提供與父節(jié)點(diǎn)內(nèi)每個(gè)終端類投票的樹的比例相對(duì)應(yīng)的預(yù)測(cè)分?jǐn)?shù)。然后輸出一個(gè)按細(xì)胞預(yù)測(cè)得分(PS)矩陣。
2. 細(xì)胞在其父節(jié)點(diǎn)的相應(yīng)模型中迭代詢問,直到獲得終端分類。并且在每個(gè)分類任務(wù)期間,每個(gè)單元都會(huì)收到一個(gè)預(yù)測(cè)分?jǐn)?shù) (PS) 向量,對(duì)應(yīng)于父節(jié)點(diǎn)中為每個(gè)終端類投票的樹的百分比。然后通過PS矩陣計(jì)算該單元來計(jì)算中間組分?jǐn)?shù)(IGS),隨后將單元格鏈接到層次結(jié)構(gòu)中的下一個(gè)父節(jié)點(diǎn)。如果單元格的 IGS 低于置信臨界值,則每個(gè)單元由其下一個(gè)關(guān)聯(lián)模型進(jìn)行詢問,并且由一組更具辨別性的特征來進(jìn)行潛在的終端類定義。未通過 IGS 閾值的細(xì)胞將被賦予其先前的父分類,并保留進(jìn)一步的子分類。
作者還提出:scTOMIC中嵌入了癌癥簽名評(píng)分和細(xì)胞分化模塊。例如下圖的f模塊(圖1f),通過對(duì)批量scRNA-seq衍生的分化基因表達(dá)程序進(jìn)行評(píng)分來區(qū)分癌癥和組織特異性非惡性細(xì)胞。scATOMIC 自動(dòng)將群體 2 注釋為癌細(xì)胞,將群體 1 注釋為非惡性細(xì)胞。
二、模型驗(yàn)證
采用一個(gè)內(nèi)部驗(yàn)證集和兩個(gè)外部驗(yàn)證集共同驗(yàn)證,結(jié)果分別如下圖顯示。這些結(jié)果證明了scATOMIC的核心算法在檢測(cè)癌細(xì)胞及其類型方面具有高度的準(zhǔn)確性。
三、模型優(yōu)勢(shì)與模型作用
1.由于現(xiàn)有的細(xì)胞類型分類工具(例如SingleR、Seurat、SingleCellNet、scmap-cell、CHETAH和scType)并非旨在注釋惡性細(xì)胞,因此該比較突出了scATOMIC克服泛癌癥環(huán)境中的復(fù)雜性以準(zhǔn)確識(shí)別癌細(xì)胞的能力,同時(shí)在注釋基質(zhì)和血液方面也具有相當(dāng)或顯著更好的性能(圖2c)。
2.scATOMIC能夠區(qū)分非惡性、組織特異性細(xì)胞和癌細(xì)胞,這里是基于inferCNV算法,預(yù)測(cè)的惡性細(xì)胞被推斷為非整倍體細(xì)胞,而正常組織細(xì)胞被推斷為二倍體。與CopyKAT的比較如圖3b所示。
3.scATOMIC比腫瘤數(shù)據(jù)集中的原始注釋具有更高的細(xì)胞分辨率,例如可以識(shí)別重疊的基因表達(dá),并將其分到合適的細(xì)胞類型中;還可以進(jìn)一步細(xì)分為亞型。另外scATOMIC 在膠質(zhì)母細(xì)胞瘤中鑒定出造血干細(xì)胞/祖細(xì)胞 (HSPC),這些已被證明可以促進(jìn)腫瘤細(xì)胞增殖的群體。
4.scATOMIC 被證明檢測(cè)轉(zhuǎn)移性癌癥的起源組織是可行的(準(zhǔn)確度為83.9%),并且可以幫助識(shí)別各種實(shí)體人腫瘤中的癌癥原發(fā)部位。
總而言之,scTOMIC的核心分層算法能夠以高分辨率解析細(xì)胞身份,標(biāo)記更細(xì)的T細(xì)胞狀態(tài),識(shí)別稀有細(xì)胞類型,避免錯(cuò)誤分類未知細(xì)胞并確定癌癥類型。
四、討論
總之,scTONATIC被提出有效地注釋泛癌癥環(huán)境中的TME。其通過使用穩(wěn)定表達(dá)的轉(zhuǎn)錄本作為特征、結(jié)構(gòu)化分類和使用可靠和大型數(shù)據(jù)集訓(xùn)練的模型,已被證明可以準(zhǔn)確識(shí)別癌細(xì)胞類型及其來源,并且可以進(jìn)行更細(xì)的亞型分類。此外,scANTIC與其他現(xiàn)有的自動(dòng)細(xì)胞類型注釋器相當(dāng)或優(yōu)于其他現(xiàn)有的自動(dòng)細(xì)胞類型注釋器。而且,在具有基因組不穩(wěn)定性和正常細(xì)胞適當(dāng)參考的樣本中,scANTIC和CNV推斷與scRNA-seq數(shù)據(jù)中的惡性細(xì)胞之間具有高度一致性,因此作者因此建議將scANTIC與CNV推理結(jié)合使用來注釋癌細(xì)胞及其類型。