常規(guī)單細(xì)胞分析中,細(xì)胞群的注釋通常依賴基于其轉(zhuǎn)錄組譜的無監(jiān)督細(xì)胞聚類,鑒定不同類群之間差異表達(dá)的標(biāo)記基因,然后通過在文獻(xiàn)或細(xì)胞標(biāo)記數(shù)據(jù)庫中檢索這些標(biāo)記基因,將對應(yīng)的細(xì)胞類型標(biāo)簽注釋到給每個細(xì)胞群。然而這種手動注釋的方法不僅耗時還容易出錯,因為一個標(biāo)記基因可能在多個細(xì)胞群中表達(dá),且對應(yīng)多種不同細(xì)胞類型。此外,陰性標(biāo)記基因的表達(dá)也應(yīng)納入細(xì)胞類型鑒定過程,這些基因也是證明細(xì)胞屬于特定類型的證據(jù)。
在臨床上,單細(xì)胞特征分析的一個重要應(yīng)用是設(shè)計個性化治療,選擇性地針對患者來源樣本中的惡性細(xì)胞類型,同時避免對健康細(xì)胞的抑制和毒性作用。然而,如何準(zhǔn)確區(qū)分多種惡性和非惡性細(xì)胞群以進(jìn)行靶向治療仍然是一個挑戰(zhàn),需要適用于各種疾病和組織類型的系統(tǒng)性和高度選擇性策略?;谝陨蠁栴},芬蘭赫爾辛基大學(xué)分子醫(yī)學(xué)研究所(FIMM)的研究人員開發(fā)了ScType 數(shù)據(jù)庫(https://sctype.app)。
使用來自單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的組合特定標(biāo)記進(jìn)行全自動和超快速的細(xì)胞類型鑒定
ScType簡介
ScType數(shù)據(jù)庫是迄今為止最大的人類和小鼠細(xì)胞特異性標(biāo)記基因數(shù)據(jù)庫,整合了 CellMarker數(shù)據(jù)庫(http://biocc.hrbmu.edu.cn/CellMarker/)和PanglaoDB(https:// panglaodb.se)這兩個目前最大的細(xì)胞類型注釋數(shù)據(jù)庫中的標(biāo)記基因。在CellMarker數(shù)據(jù)庫中,從 100000 多篇已發(fā)表的論文中手動收集和整理了158個人體組織中467種細(xì)胞類型的 13605 個細(xì)胞標(biāo)記基因和 81個小鼠組織中389種細(xì)胞類型的9148個細(xì)胞標(biāo)記基因。在 PanglaoDB數(shù)據(jù)庫中,收集了155 種細(xì)胞類型的 6631 個標(biāo)記基因。此外,開發(fā)者還通過手動整理超過10篇文獻(xiàn),將15種具有相應(yīng)標(biāo)記基因的新型細(xì)胞類型添加到了當(dāng)前版本的ScType 數(shù)據(jù)庫中。總體而言,當(dāng)前版本的 ScType 數(shù)據(jù)庫包含17種人體組織中194種細(xì)胞類型的 3980 個細(xì)胞標(biāo)記基因和 17 種小鼠組織中194種細(xì)胞類型的 4212 個細(xì)胞標(biāo)記基因。
不僅如此,ScType 還有很多其他優(yōu)勢:首先,ScType只需要一個 scRNA-seq 表達(dá)矩陣(原始的或標(biāo)準(zhǔn)化的)作為輸入,輸入數(shù)據(jù)的維度不受限制;其次,ScType提供了多種處理、分析和可視化 scRNA-seq 數(shù)據(jù)的方法;再次,ScType 實現(xiàn)了細(xì)胞類型識別的自動化程序;最后,ScType 是一個免費的工具,還在GitHub上提供了可供使用的R包集代碼(https://github.com/IanevskiAleksandr/sc-type/)。
ScType的整體性能如何?
開發(fā)者通過對來自人和小鼠各種組織的 6 個 scRNA-seq 數(shù)據(jù)集進(jìn)行了注釋分析,準(zhǔn)確率 高達(dá)98.6%。唯一無法自動注釋已知的細(xì)胞類型是人腦數(shù)據(jù)集中的胎兒細(xì)胞,這是因為在當(dāng)前版本的 ScType 數(shù)據(jù)庫中沒有可用于人腦的胎兒細(xì)胞標(biāo)記基因。此外,開發(fā)者還將 ScType 與其他三種最近開發(fā)的細(xì)胞類型注釋方法進(jìn)行了比較。結(jié)果顯示,ScType不僅準(zhǔn)確性高,運行速度也很快。值得注意的是,ScType 在注釋人類 PBMC 數(shù)據(jù)集的細(xì)胞類型中顯示出了幾乎完美的準(zhǔn)確性。
進(jìn)入正題:如何使用ScType?
1. ScType介紹
進(jìn)入首頁,左側(cè)為數(shù)據(jù)上傳、質(zhì)控、可視化、示例樣本以及內(nèi)置數(shù)據(jù)庫等項目。右上角的說明文檔中介紹了數(shù)據(jù)上傳的要求。ScType 中允許使用三種輸入文件格式,分別是基因表達(dá)矩陣、CellRanger的輸出文件(包含barcodes.tsv、genes.tsv/features.tsv 和 matrix.mtx的*.zip壓縮包)和SingleCellExperiment R 對象。
2. 上傳數(shù)據(jù)
3. 數(shù)據(jù)質(zhì)控和過濾
該平臺數(shù)據(jù)分析的第一步是基于cells/barcodes統(tǒng)計的質(zhì)控分析。ScType 提供三個QC指標(biāo)來根據(jù)用戶自定義的標(biāo)準(zhǔn)(檢測到的基因數(shù)、計數(shù)深度和線粒體基因百分比)過濾細(xì)胞。左圖上的每個點代表一個細(xì)胞(鼠標(biāo)懸??梢圆榭醇?xì)胞注釋)。鼠標(biāo)拖放虛線可以自由選擇過濾標(biāo)準(zhǔn)。過濾也可以通過右側(cè)欄移動滑塊來完成。確定過濾標(biāo)準(zhǔn)后點擊下一步。
4. 數(shù)據(jù)標(biāo)準(zhǔn)化
接下來是對數(shù)據(jù)的標(biāo)準(zhǔn)化。在右側(cè)選項欄中可以指定用于下游分析的高變基因數(shù)量,該平臺默認(rèn)值是輸入數(shù)據(jù)中給出的基因總數(shù)的 15%。
5. 可視化
最后是結(jié)果可視化。用戶可以自主選擇是以散點圖還是熱圖展示,有t-SNE、UMAP和PCA三種降維方式可選擇,既可按cluster著色也可以選擇按細(xì)胞類型著色。可視化的結(jié)果可以圖片形式導(dǎo)出,相關(guān)數(shù)據(jù)也可以下載相應(yīng)的xlsx文件。
6. 用戶自定義
此外,ScType還允許用戶上傳用于細(xì)胞類型注釋的自定義標(biāo)記基因。
參考文獻(xiàn)
Ianevski, A., Giri, A.K. & Aittokallio, T. Fully-automated and ultra-fast cell-type identification using specific marker combinations from single-cell transcriptomic data. Nat Commun 13, 1246 (2022). https://doi.org/10.1038/s41467-022-28803-w