細(xì)胞類型注釋,用它就夠了
>導(dǎo)讀
>數(shù)據(jù)庫網(wǎng)址
>數(shù)據(jù)庫建設(shè)背景
>數(shù)據(jù)庫介紹
>數(shù)據(jù)庫使用指南
(1)主頁介紹
(2)物種/組織/細(xì)胞/基因檢索
(3)數(shù)據(jù)概覽
(4)6個單細(xì)胞數(shù)據(jù)分析工具
(5)數(shù)據(jù)資源下載
>總結(jié)
導(dǎo)讀
細(xì)胞標(biāo)志物(Cell Marker)是用來對細(xì)胞定義和分選的重要標(biāo)志,無論是在流式細(xì)胞術(shù)等濕實(shí)驗(yàn)對特定細(xì)胞類型進(jìn)捕獲,還是在單細(xì)胞測序數(shù)據(jù)中精確鑒定細(xì)胞類型,都需要借助Cell Marker。因此,CellMarker數(shù)據(jù)庫在2018年應(yīng)運(yùn)而生。近期,CellMarker 2.0數(shù)據(jù)庫升級版在Nucleic Acids Research發(fā)布,新增一系列單細(xì)胞測序數(shù)據(jù)分析相關(guān)的功能,是探索人類和小鼠不同組織中各種細(xì)胞類型標(biāo)記物的寶貴資源。
數(shù)據(jù)庫網(wǎng)址
http://bio-bigdata.hrbmu.edu.cn/CellMarker
http://117.50.127.228/CellMarker/
數(shù)據(jù)庫建設(shè)背景
單細(xì)胞測序技術(shù)的發(fā)展為研究細(xì)胞的基因結(jié)構(gòu)和基因表達(dá)狀態(tài),從單細(xì)胞水平探索細(xì)胞之間的異質(zhì)性提供了強(qiáng)有力的技術(shù)支持。為了區(qū)分不同組織中的不同細(xì)胞類型,CellMarker 1.0使用戶能夠在人類或小鼠的各種器官中搜索所有已知的實(shí)驗(yàn)支持的不同細(xì)胞類型的標(biāo)記。隨著對單細(xì)胞水平研究的興趣日益濃厚以及高通量技術(shù)的應(yīng)用,各種細(xì)胞類型中的標(biāo)記物數(shù)量迅速增加。此外,基于單細(xì)胞數(shù)據(jù)的腫瘤內(nèi)異質(zhì)性、細(xì)胞間通訊和細(xì)胞分化軌跡也得到了廣泛的研究。因此,迫切需要用更多的資源和改進(jìn)的工具來更新CellMarker。值得注意的是,細(xì)胞標(biāo)記物可以基于單細(xì)胞測序技術(shù)分為不同的組,包括10x Chromium、Smart-seq2和Drop-seq等。最近,一些數(shù)據(jù)庫從可用的文獻(xiàn)信息中手動收集不同細(xì)胞類型的標(biāo)記基因,例如PanglaoDB、PCMDB和CancerSEA。盡管這些數(shù)據(jù)庫為細(xì)胞cluster的注釋提供了寶貴的資源,但是存儲在這些數(shù)據(jù)庫中的信息具有一定的局限性,例如缺乏標(biāo)記物的組織來源、類型和測序技術(shù)信息等。目前缺乏一個全球性的高質(zhì)量數(shù)據(jù)庫來存儲和分類各種人類和小鼠組織中不同細(xì)胞類型的標(biāo)記。
數(shù)據(jù)庫介紹
CellMarker 1.0版本于2018年首次發(fā)布,由哈爾濱醫(yī)科大學(xué)李霞教授團(tuán)隊(duì)建設(shè)完成,CellMarker 2.0是一個更新的數(shù)據(jù)庫,提供了人/鼠的組織中不同細(xì)胞類型的marker基因集合。此外,該數(shù)據(jù)庫提供了用于分析單細(xì)胞測序數(shù)據(jù)的網(wǎng)絡(luò)工具。CellMarker 2.0亮點(diǎn)可以概括為以下幾個方面(1)在以前版本的基礎(chǔ)上增加了36300個組織細(xì)胞類型標(biāo)記條目、474個組織、1901個細(xì)胞類型和4566個marker基因。當(dāng)前版本招募了26915個marker基因、2578個細(xì)胞類型和656個組織,總共有83361個組織細(xì)胞類型標(biāo)記條目。(2)新增來自10X Chromium、Smart-Seq2、Drop-seq等48種測序技術(shù)來源的標(biāo)記信息。(3)新增29種細(xì)胞標(biāo)記,包括蛋白編碼基因lncRNA、假基因等。(4)開發(fā)了6種靈活的網(wǎng)絡(luò)工具,包括細(xì)胞注釋分析、細(xì)胞聚類分析、細(xì)胞惡性分析、細(xì)胞分化分析、細(xì)胞特征分析和細(xì)胞通訊分析,用于單細(xì)胞測序數(shù)據(jù)的分析和可視化。
數(shù)據(jù)庫使用指南
(1)主頁介紹
主頁提供了一個人類和小鼠的全局解剖地圖,方便用戶快速探索感興趣的物種、組織和細(xì)胞類型的marker基因,通過點(diǎn)擊相應(yīng)圖像即可進(jìn)入對應(yīng)的數(shù)據(jù)模塊。下側(cè)是六種單細(xì)胞分析工具的入口,用戶點(diǎn)擊可以進(jìn)入相應(yīng)的分析版塊。在主頁的右邊是一個快速搜索框。用戶可以通過輸入組織名稱、細(xì)胞名稱、marker基因名稱來搜索。
(2)物種/組織/細(xì)胞/基因檢索
在菜單欄選擇進(jìn)入“Search”頁面,數(shù)據(jù)庫提供了三種檢索的方式:(1)按照組織類型、細(xì)胞類型檢索,用戶可以直接在頁面上選擇相應(yīng)的物種、組織、細(xì)胞類型,進(jìn)而跳轉(zhuǎn)到該細(xì)胞類型對應(yīng)的marker基因頁面。(2)按照基因檢索,數(shù)據(jù)庫支持三種基因輸入形式,Gene alias、Gene symbol和Gene Entrez ID。(3)快速檢索,是一種混合檢索模式,既可以檢索基因名,也可以檢索組織、細(xì)胞類型。
數(shù)據(jù)檢索之后,進(jìn)入數(shù)據(jù)檢索結(jié)果頁面。數(shù)據(jù)庫提供了2種數(shù)據(jù)展示形式。結(jié)果頁面的頂部是經(jīng)典的詞云圖,用以展示所有基因出現(xiàn)的頻次高低,越是高頻使用的基因,它的字體越醒目。在詞云圖的下方的表格中展示了每個marker基因條目的詳細(xì)信息,整體上分為實(shí)驗(yàn)來源、綜述來源和計(jì)算分析三個來源的,每個條目包括物種、組織、細(xì)胞類型、疾病/腫瘤狀態(tài)、marker、文獻(xiàn)來源等。
通過輸入特定的marker基因名來檢索的話,還會有一個特殊的結(jié)果呈現(xiàn)形式。例如輸入“JCHAIN”后點(diǎn)擊查詢,結(jié)果會返回一個組織-細(xì)胞類型的dotplot,對于該基因的分布一覽無余。
(3)數(shù)據(jù)概覽
“我沒有感興趣的細(xì)胞類型,點(diǎn)進(jìn)來只是來看看數(shù)據(jù)庫都存儲了哪些數(shù)據(jù)資源”。為了解決這個問題,數(shù)據(jù)庫單獨(dú)提供了“Browse”頁面,按照物種-組織-細(xì)胞類型-marker基因的數(shù)據(jù)層級逐級呈現(xiàn)數(shù)據(jù)。用戶在此頁面可以快速瀏覽數(shù)據(jù)庫包含的所有組織、細(xì)胞類型信息。
(4)6個單細(xì)胞數(shù)據(jù)分析工具
作為數(shù)據(jù)庫升級的重頭戲,數(shù)據(jù)庫開發(fā)者提供了6個單細(xì)胞在線分析工具,并提供了幾十套公共數(shù)據(jù)庫中的數(shù)據(jù)供用戶探索。很遺憾,數(shù)據(jù)庫目前不支持用戶自定義的數(shù)據(jù)上傳之后進(jìn)行分析,但這絲毫掩蓋不了CellMarker的光輝。接下來詳細(xì)介紹這6個分析工具的功能。
(4.1)Cell Annotation
單細(xì)胞數(shù)據(jù)劃分cluster之后不知道這個cluster是哪種細(xì)胞類型怎么辦?Cell Annotation工具能夠幫助解決細(xì)胞類型注釋的問題。用戶需要準(zhǔn)備一個基因list,比如cluster的差異上調(diào)基因,在選擇好物種、組織類型之后,輸入該基因list即可進(jìn)行比較分析,數(shù)據(jù)庫會返回一個熱圖的結(jié)果,多個marker均表達(dá)的細(xì)胞類型即最有可能是需要注釋的細(xì)胞類型。
(4.2)Cell Clustering
細(xì)胞聚類分析允許用戶能夠探索不同數(shù)據(jù)集中的細(xì)胞cluster劃分以及細(xì)胞類型注釋結(jié)果,提供了tSNE和UMAP兩種降維方式的結(jié)果,同時(shí)也提供了每個細(xì)胞cluster的差異表達(dá)基因列表,方便用戶查詢、下載。
(4.3)Cell Malignancy
對于腫瘤的單細(xì)胞數(shù)據(jù)來講,非常關(guān)鍵的一步是細(xì)胞類型的劃分,即哪些是正常細(xì)胞、哪些是腫瘤細(xì)胞。基于腫瘤細(xì)胞常常會發(fā)生大片段的拷貝數(shù)擴(kuò)增或缺失的基因組特征,開發(fā)者整合了通過scRNA-seq推測CNV的inferCNV工具,對多個數(shù)據(jù)集進(jìn)行處理,用戶可以探索特定癌癥類型/GEO數(shù)據(jù)集編號的每種細(xì)胞類型所攜帶的拷貝數(shù)特征信息。
(4.4)Cell Differentiation
單細(xì)胞分析常見的降維方式是tSNE和UMAP,但是探索腫瘤演變的規(guī)律還需要依賴偽時(shí)序分析。開發(fā)者整了Monocle3的方法分析多個公開數(shù)據(jù)集,并將tSNE、UMAP、偽時(shí)序分析結(jié)果集成到一個頁面,方便用戶比較分析。此外,數(shù)據(jù)庫支持基因的表達(dá)值查詢,例如數(shù)據(jù)基因“CD3D”,可以發(fā)現(xiàn)在GSE205490 AML白血病數(shù)據(jù)集中,CD3D在偽時(shí)序的晚期表達(dá)水平較高。
(4.5)Cell Feature
本模塊支持用戶探索不同的cluster中基因表達(dá)和細(xì)胞類型分布的情況。用戶選擇感興趣的數(shù)據(jù)集之后,輸入相應(yīng)的基因名稱,可以查詢該基因在哪個cluster中是處于高表達(dá)的狀態(tài)。
(4.6)細(xì)胞互作分析
細(xì)胞互作分析是腫瘤研究當(dāng)中非常重要的一部分,免疫細(xì)胞殺傷腫瘤細(xì)胞可以通過細(xì)胞互作分析清晰的觀察到。開發(fā)者集成了CellPhoneDB工具對多個數(shù)據(jù)集進(jìn)行細(xì)胞互作分析,并將結(jié)果以pdf的形式展示(pdf存放的矢量圖可以直接下載用來發(fā)文章,好貼心呀有木有,但是注意引用數(shù)據(jù)庫呦)。數(shù)據(jù)庫提供了四種數(shù)據(jù)結(jié)果,互作得分熱圖(未標(biāo)準(zhǔn)化)、互作得分熱圖(log標(biāo)準(zhǔn)化)、互作得分網(wǎng)絡(luò)和互作得分dotplot。在數(shù)據(jù)庫頁面上顯示不全,建議大家下載之后可以看到相應(yīng)結(jié)果圖片的全貌。
(5)數(shù)據(jù)資源下載
網(wǎng)站上你能看到的所有數(shù)據(jù)基本都可以下載,在下載頁面開發(fā)者也提供了一鍵下載模式。
總結(jié)
隨著高通量測序技術(shù)的發(fā)展,近年來細(xì)胞標(biāo)記的數(shù)量顯著增加。相關(guān)文獻(xiàn)的快速增長表明,迫切需要收集相應(yīng)的數(shù)據(jù)集并更新第一版CellMarker數(shù)據(jù)庫。目前,CellMarker 2.0的數(shù)據(jù)集和功能得到了很大的改進(jìn)。CellMarker 2.0擴(kuò)展到656個組織,2578個細(xì)胞類型和26 915個細(xì)胞標(biāo)記。相信在不就的將來,會有更多的物種和更多的信息加入到Cell Marker數(shù)據(jù)庫當(dāng)中。