數(shù)據(jù)庫對生物信息學的發(fā)展是十分重要的,可以說優(yōu)質(zhì)的數(shù)據(jù)庫資源是生信學科發(fā)展的基石。數(shù)據(jù)庫可以根據(jù)不同的用途和領(lǐng)域分為很多種,但是實際上可以從一個角度對它進行劃分,那就是單版數(shù)據(jù)庫和持續(xù)更新的數(shù)據(jù)庫,其中單版數(shù)據(jù)庫就是指那些只發(fā)表一次的數(shù)據(jù)庫,這些數(shù)據(jù)庫在后面都沒有再更新,它們的作者可能只是出于為了發(fā)表一篇文章;而持續(xù)更新的數(shù)據(jù)庫則是在公布第一版后,陸續(xù)不斷更新完善其功能,這類數(shù)據(jù)庫對某一領(lǐng)域或者解決某一問題最關(guān)鍵的資源。今天,Immugent就來介紹一款非常經(jīng)典、且持續(xù)更新的疾病基因相關(guān)數(shù)據(jù)庫—DisGeNET。這個數(shù)據(jù)庫從2010年發(fā)表第一版以來,一直都在受專業(yè)團隊維護更新,每隔一段時間就會有新的版本和功能被更新,而且相對應的文章也是越發(fā)越好。截止到DisGeNET數(shù)據(jù)庫最近在2020年所作的更新,它已經(jīng)陪伴我們10多個年頭了,而且Immugent堅信它后續(xù)還會做出更有用的更新。
DisGeNET數(shù)據(jù)庫可以說是疾病相關(guān)基因研究的扛把子,它的的優(yōu)勢主要包括:1.綜合性:DisGeNET匯集了來自不同來源的基因疾病關(guān)聯(lián)數(shù)據(jù),包括基因組學、遺傳性和醫(yī)學文獻等多個領(lǐng)域,這使得其收集到的數(shù)據(jù)更加全面和可靠。2.可靠性:DisGeNET采用了多種篩選和驗證方法,以確保收集到的數(shù)據(jù)質(zhì)量和可靠性。例如,基于特定算法的數(shù)據(jù)質(zhì)量評估、多個數(shù)據(jù)庫之間的交叉驗證等。3.可訪問性:DisGeNET是一個免費、開放的數(shù)據(jù)庫,任何人都可以通過網(wǎng)頁界面或API訪問其中的數(shù)據(jù)和工具。4.多功能性:DisGeNET提供了許多功能和工具,如基因和疾病搜索、網(wǎng)絡(luò)分析和可視化等,使得研究人員可以更好地探索和理解基因與疾病之間的關(guān)系,從而為疾病的研究和治療提供幫助。
DisGeNET數(shù)據(jù)庫每一次更新都有相應的文章發(fā)表,從第一版發(fā)表在Bioinformatics雜志以來,到最近兩次更新都發(fā)表在Nucleic Acids Research雜志上,DisGeNET數(shù)據(jù)庫的影響力是越來越大。當然,引用DisGeNET數(shù)據(jù)庫發(fā)表的文章更是不計其數(shù),各大子刊到CNS正刊都會引用DisGeNET數(shù)據(jù)庫。下面Immugent就以時間的順序,根據(jù)DisGeNET數(shù)據(jù)庫發(fā)表的一些列文章來系統(tǒng)介紹DisGeNET數(shù)據(jù)庫的發(fā)展歷程。
1. 作為Cytoscape插件的DisGeNET第一版
DisGeNET數(shù)據(jù)庫第一版是作為Cytoscape插件來使用,相應的文章發(fā)表在Bioinformatics雜志,篇名為:DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze gene–disease networks。使用這個插件可以直接查詢和分析人類基因疾病網(wǎng)絡(luò),不僅允許用戶友好地訪問DisGeNET數(shù)據(jù)庫通過整合幾個公共來源的數(shù)據(jù)開發(fā)的新的基因疾病數(shù)據(jù)庫。它不僅可以二部圖表示基因-疾病的關(guān)聯(lián),并提供數(shù)據(jù)的基因中心和疾病中心信息;它還可以通過各種內(nèi)置功能幫助用戶解釋和探索人類疾病的遺傳基礎(chǔ)。此外,DisGeNET允許根據(jù)標準疾病分類對節(jié)點(基因/疾病)進行多色處理,以方便可視化。
圖1:
總的來說,DisGeNET插件是一個易于分析和解釋人類基因疾病網(wǎng)絡(luò)的連貫工具,它允許用戶友好地訪問一個全面的數(shù)據(jù)庫,包括孟德爾病、復雜疾病和環(huán)境疾病的基因疾病關(guān)聯(lián)。我們具體在使用時可以直接在Cytoscape上直接安裝DisGeNET插件,它有助于解釋和探索人類疾病的遺傳起源。DisGeNET插件還會生成子網(wǎng)絡(luò)的多種選擇,以及先進的搜索工具,不僅有助于對單一疾病的分析,這有助于對一系列疾病或通過相關(guān)基因指定的某些疾病類別的研究。在此,基因和疾病節(jié)點的多色提供了一個方便的可視化疾病分類網(wǎng)絡(luò)。
值得注意的是,DisGeNET團隊在發(fā)表第一版數(shù)據(jù)庫時,就在文章末尾就表示會計劃定期更新基礎(chǔ)基因-疾病關(guān)聯(lián)數(shù)據(jù)庫,并整合其它更多的疾病基因相關(guān)的數(shù)據(jù)源。
2. DisGeNET:一個動態(tài)探索人類疾病及其基因的綜合平臺
從2010年開始,DisGeNET團隊花了5年去收集和整理各類疾病基因相關(guān)的數(shù)據(jù)資源,并且去在萬眾期待了很久之后,一個真正意義上的綜合性DisGeNET數(shù)據(jù)庫誕生了。相應的文章在2015年發(fā)表在Database雜志上,篇名為:DisGeNET: a discovery platform for the dynamical exploration of human diseases and their genes。如果說2010年發(fā)表的第一版只是提供一個理想的藍圖,那么這次更新是實現(xiàn)這個理想所邁出的最關(guān)鍵的一步。
DisGeNET數(shù)據(jù)庫也是從這一年開始,才真正意義上成為一個綜合性的疾病相關(guān)基因探索平臺,旨在全方位解決與人類疾病的遺傳基礎(chǔ)有關(guān)的各種問題。在這一版的更新中,DisGeNET納入了16000個基因和13000種疾病之間的38萬多個關(guān)聯(lián),這使它成為當時同類數(shù)據(jù)庫中最大的數(shù)據(jù)庫之一。DisGeNET將專家管理的數(shù)據(jù)庫與文本挖掘的數(shù)據(jù)集成在一起,涵蓋孟德爾疾病和復雜疾病的信息,并包括來自動物疾病模型的數(shù)據(jù)。它以支持證據(jù)為基礎(chǔ),對基因疾病關(guān)聯(lián)進行優(yōu)先排序。
圖2:
當然也是從2015年開始,DisGeNET被打造成一個可開放訪問的綜合性資源型數(shù)據(jù)庫,用戶既可以通過web界面,也可以使用Cytoscape插件和語義web資源獲得疾病相關(guān)信息,其中web界面支持用戶友好的數(shù)據(jù)瀏覽和導航。DisGeNET數(shù)據(jù)也可以通過DisGeNET Cytoscape插件進行分析,并通過這個流行的網(wǎng)絡(luò)分析軟件套件的其他插件的注釋進行豐富。最后,DisGeNET中包含的信息可以使用語義Web技術(shù)進行擴展和補充,并鏈接到關(guān)聯(lián)數(shù)據(jù)云中已經(jīng)存在的各種資源。因此,DisGeNET提供了最全面的人類基因-疾病關(guān)聯(lián)集合之一,以及一套有價值的工具,用于調(diào)查遺傳起源疾病的分子機制,旨在滿足不同用戶的需求,包括生物信息學家、生物學家和衛(wèi)生保健從業(yè)人員。
圖3:
其中,DisGeNET數(shù)據(jù)庫的Web界面是第二版本的主要新功能之一。它的設(shè)計是為了使搜索、可視化、過濾和分享數(shù)據(jù)更加容易。此外, 它允許下載包含用戶搜索結(jié)果的各種格式的數(shù)據(jù)文件。此外,它還能自動生成幾種編程語言的腳本,可以下載并用于復制用戶進行的分析。高級用戶可以定制這些腳本,以執(zhí)行類似的查詢和/或?qū)⑵浼{入他們自己的生物信息學工作流程。最后, 提供的功能是通過電子郵件或?qū)⒔Y(jié)果頁面的HTML代碼嵌入到一個網(wǎng)頁中來分享用DisGeNET進行的搜索結(jié)果。
圖4:
DisGeNET數(shù)據(jù)庫還允許按 MeSH 類別過濾 PPARG 相關(guān)的疾病,從而展示了 PPARG 基因參與人類疾病的全貌。上圖A顯示了按 MeSH 類別對來自策劃來源的 PPARG 相關(guān)疾病的 DisGeNET 分數(shù)分布圖,其中代表性最強的兩個疾病類別是腫瘤(12 種疾?。┖蜖I養(yǎng)與代謝性疾?。?1 種疾?。?。后一類包括得分最高的三種疾病,這與PPARG在營養(yǎng)水平感知以及脂質(zhì)和葡萄糖代謝的調(diào)節(jié)中的作用相一致。肥胖癥是與PPARG相關(guān)的排名最高的疾?。?.812)。幾乎所有的資料都支持這種關(guān)聯(lián),而且有100多篇文章,這些文章主要是探討PPARG遺傳變異在肥胖癥中的作用。上圖C說明了這一點:連接 PPARG 和肥胖癥的許多邊都對應于 "遺傳變異 "關(guān)聯(lián)類型。
3. DisGeNET-RDF:利用語義網(wǎng)絡(luò)來探索疾病的遺傳基礎(chǔ)
DisGeNET數(shù)據(jù)庫在2015年的更新后,在當時的科研界引起了極大的轟動,但同時由于龐大的數(shù)據(jù)量和復雜的基因和疾病互作關(guān)系,使得用戶并不能輕易捕獲到檢索結(jié)果的核心信息。因此,在2016年DisGeNET數(shù)據(jù)庫提出了基于語義相似性的概念打造了DisGeNET-RDF,相應的文章以篇名為:DisGeNET-RDF: harnessing the innovative power of the Semantic Web to explore the genetic basis of diseases的形式,在2016年發(fā)表在Bioinformatics雜志上。
總的來說,DisGeNET-RDF基于語義網(wǎng)絡(luò)相似性,提供了關(guān)于人類疾病的遺傳基礎(chǔ)的知識,使得基因-疾病關(guān)聯(lián)(GDAs)及其出處元數(shù)據(jù)被公布為人類可讀和機器可處理的網(wǎng)絡(luò)資源。DisGeNET-RDF中包含的關(guān)于GDAs的信息與其他生物醫(yī)學數(shù)據(jù)庫相互連接,以支持開發(fā)生物信息學方法,通過循證利用豐富和完全相互連接的開放數(shù)據(jù)進行轉(zhuǎn)化研究。
圖5:
為了確定疾病相關(guān)病因、藥理治療和毒理學事件的生物機制,我們需要利用生物醫(yī)學數(shù)據(jù),以多方面的方式進行集成。因此,DisGeNET-RDF的應用是多種多樣的,其SPARQL端點允許查詢聯(lián)合使用單個查詢查詢帶有多個LOD資源的DisGeNET。這些數(shù)據(jù)包括基因表達,藥物和其他化學物質(zhì),生物途徑和網(wǎng)絡(luò),動力學模型,只是提到一些覆蓋的信息。
可以使用DisGeNET-RDF及其與其他資源的鏈接來解決所研究的復雜科研問題:
1.探索與拉福拉病相關(guān)的途徑是什么?
2.哪些與阿爾斯科格綜合征相關(guān)的蛋白質(zhì)是潛在的藥物靶點?
3.胰腺癌中與基因差異表達相關(guān)的其他疾病有哪些?
DisGeNET-RDF不僅提供了基于以往研究的基因列表,還介紹了如何從個人電腦的端點服務制定SPARQL查詢的支持信息。例如,要解決前面的問題(1)、(2)和(3),用戶可以分別將DisGeNET-RDF與WikiPathways、ChEMBL和Gene Expression Atlas交叉。具體使用教程,我們可參閱網(wǎng)站上針對這些特定用例的SPARQL查詢示例。查詢到的這些信息可用于探索疾病的潛在分子機制,探索藥物的重新利用機會,或確定與不良反應相關(guān)的藥物靶點。
4. DisGeNET:一個整合了人類疾病相關(guān)基因的綜合平臺
關(guān)于人類疾病的遺傳基礎(chǔ)的信息是精準醫(yī)療和藥物發(fā)現(xiàn)的核心。然而, 為了充分發(fā)揮其潛力以支持這些目標, 必須克服一系列難題, 如數(shù)據(jù)的分散性、異質(zhì)性、可用性和不同的概念化。為了嘗試解決上述難題,DisGeNET數(shù)據(jù)庫分別在2017年和2019年做了兩次系統(tǒng)性的更新,相應的文章均發(fā)表在Nucleic Acids Research雜志上,至此確定了其在疾病數(shù)據(jù)庫領(lǐng)域的核心地位。
DisGeNET數(shù)據(jù)庫不僅整合了來自專家策劃的資料庫, GWAS目錄, 動物模型和科學文獻的數(shù)據(jù),并且還使用受控詞匯和公認的研究概念對所有疾病信息進行了同質(zhì)化的注釋。此外, 還提供了幾個原始指標, 以協(xié)助確定基因型-表型關(guān)系的優(yōu)先次序. 這些信息可以通過一個網(wǎng)絡(luò)界面、一個Cytoscape應用程序、一個RDF SPARQL終端、幾種編程語言的腳本和一個R包來獲取。最終,DisGeNET作為一個多功能的平臺,可用于不同的研究目的,包括調(diào)查特定人類疾病及其并發(fā)癥的分子基礎(chǔ),分析疾病基因的特性,產(chǎn)生關(guān)于藥物治療作用和藥物不良反應的假設(shè),驗證計算預測的疾病基因和評估文本挖掘方法的性能。
圖6:
DisGeNET數(shù)據(jù)庫結(jié)構(gòu)(圖1A)的核心概念是基因-疾病關(guān)聯(lián)(GDA)和變異-疾病關(guān)聯(lián)(VDA),它們是從不同的數(shù)據(jù)源整理而來的(圖2)。這些不同數(shù)據(jù)源的集成是通過使用社區(qū)驅(qū)動的本體和受控詞匯表對基因、變異、疾病(疾病、癥狀和特征)和關(guān)聯(lián)進行適當?shù)臉藴驶瘉韺崿F(xiàn)的。以及專門開發(fā)的本體(例如DisGeNET關(guān)聯(lián)類型本體)。值得注意的是,信息的來源以幾種方式提供:(a)作為字段“原始數(shù)據(jù)庫”,表明數(shù)據(jù)來自何處(例如ClinVar或UniProt), (b)支持該協(xié)會的文章數(shù)量和這些出版物的NCBI PMIDs,以及(c)從文章中摘錄的文本,表達該協(xié)會的證據(jù)。gda和vda通過內(nèi)部和外部屬性進一步注解,簡化了數(shù)據(jù)分析、探索和優(yōu)先級劃分。
圖7:
DisGeNET中關(guān)于疾病相關(guān)基因的主要包括兩個概念:疾病和基因的相關(guān)性(GDA)以及變異和疾病的相關(guān)性(VDA)?;谝陨线@兩個概念。作者基于多個公共數(shù)據(jù)基因注釋平臺例如:[Simple ClinVar]-臨床相關(guān)突變研究, Uniprot 以及基于文獻的文本挖掘,最終一共獲得了 628685 個 GDA,涉及 17549 個基因和 24166 種疾病,以及 210498 個 VDA,包括 117 337 個變異和 10358 種疾病。在DisGeNET數(shù)據(jù)庫最新的版本(v6.0)中,包含了628685個基因-疾病關(guān)聯(lián)(GDAs),涉及17549個基因和24 166種疾病,以及210498個變異-疾病關(guān)聯(lián)(VDAs),包括117 337個變異和10358種疾病。請注意,“疾病”一詞指的是與人類基因組學相關(guān)的廣泛表型:實際疾病、疾病癥狀和作為疾病表現(xiàn)被觀察到的異常表型,以及目前在大規(guī)模全基因組關(guān)聯(lián)研究(GWAs)中探索的正常性狀和表型(有關(guān)疾病標準化和注釋的更多細節(jié),請參閱新數(shù)據(jù)屬性和優(yōu)先級度量)。
圖8:
目前,納入DisGeNET數(shù)據(jù)庫的GDAs和VDAs來自于十多個資料庫。例如, 注釋臨床相關(guān)變異體(ClinVar)或基因(ClinGen, Genomics England Pan-elApp等)的數(shù)據(jù)庫, 或?qū)iT針對某些疾病類別的數(shù)據(jù)庫(如針對罕見疾病的Orphanet), 或匯編疾病的動物模型的信息(如MGD和RGD)。 除了 VDAs 和 GDAs 的原始信息來源外, DisGeNET 還為數(shù)據(jù)庫來源提供了一個分類: 對于基因-疾病關(guān)聯(lián) (GDAs), 信息被歸類為 Curated, Animal Models, Literature 和一個新的類別—Inferred。
以上就是 DisGeNET數(shù)據(jù)庫的全部功能介紹了,至于我們?nèi)绾问褂盟糜谖覀兊膶嶋H科研問題,取決于用戶自己的喜好。特別是基于DisGeNET數(shù)據(jù)庫開發(fā)的R包--disgenet2r,已經(jīng)和其它分析結(jié)果做了無縫銜接,使用起來十分方便。這對于高通量數(shù)據(jù)分成的結(jié)果解讀而言,除了基本的 GO 和 KEGG 的功能富集分析之外,也是可以使用disgenet2r包來分析這些基因和疾病的關(guān)系。特別是當我們聚焦一種疾病的話,就可以利用disgenet2r包很容易找到這個疾病有關(guān)的基因了。
5.說在最后
總的來說,DisGeNET數(shù)據(jù)庫是一個專門收集人類遺傳性疾病與基因、變異、蛋白質(zhì)、化合物等相關(guān)信息的數(shù)據(jù)庫。它收集了大量文獻、基因組、蛋白質(zhì)組和化學信息的數(shù)據(jù),能夠提供大量的遺傳性疾病的相關(guān)信息,包括遺傳突變的位置、基因變異的性質(zhì)、相關(guān)蛋白質(zhì)的表達及功能等。同時,DisGeNET數(shù)據(jù)庫構(gòu)建了一個基因疾病關(guān)聯(lián)網(wǎng)絡(luò),它收集了來自不同資源(如科學文獻、遺傳性和基因組學數(shù)據(jù)庫、疾病相關(guān)基因、藥物和疾病關(guān)聯(lián)的基因)的數(shù)據(jù),以及基于自然語言處理技術(shù)提取的基因-疾病關(guān)聯(lián)信息,以提供廣泛的基因疾病關(guān)聯(lián)數(shù)據(jù)。此外,該數(shù)據(jù)庫還提供了一些工具和功能,如基因和疾病搜索、網(wǎng)絡(luò)分析和交互式可視化等,以幫助研究人員更好地探索和理解基因與疾病之間的關(guān)系。
除了基因疾病關(guān)聯(lián)信息外,DisGeNET還提供了其他有用的功能。例如,用戶可以通過DisGeNET搜索具有特定疾病相關(guān)性的基因或基因組區(qū)域,并獲取有關(guān)這些基因的詳細信息。此外,DisGeNET還提供了可視化工具,幫助用戶理解基因疾病關(guān)聯(lián)的復雜性和多樣性。DisGeNET數(shù)據(jù)庫的應用已經(jīng)涉及到許多領(lǐng)域,包括基因疾病關(guān)聯(lián)研究、藥物發(fā)現(xiàn)和個體化醫(yī)學等。其中一些應用包括:基因疾病關(guān)聯(lián)研究:DisGeNET可以為基因疾病關(guān)聯(lián)研究提供有用的信息和支持。例如,研究人員可以利用DisGeNET中的數(shù)據(jù)鑒定和驗證新的基因與疾病之間的關(guān)聯(lián);藥物發(fā)現(xiàn):DisGeNET可以用于藥物發(fā)現(xiàn)和開發(fā)。例如,研究人員可以利用DisGeNET中的信息確定哪些基因與特定疾病相關(guān),并尋找具有靶向這些基因的藥物;個體化醫(yī)學:DisGeNET可以為個體化醫(yī)學提供支持。例如,醫(yī)生可以利用DisGeNET中的信息,幫助診斷和治療患有特定疾病的患者;
總之,DisGeNET數(shù)據(jù)庫是一個非常有用的資源,能夠提供廣泛的基因疾病關(guān)聯(lián)信息,并支持了多個醫(yī)學應用領(lǐng)域的發(fā)展。在未來,隨著更多數(shù)據(jù)和信息的不斷積累,DisGeNET的應用和發(fā)展將繼續(xù)完善和拓展。Immugent衷心希望DisGeNET數(shù)據(jù)庫能做的越來越好,同時也希望未來能有更多像DisGeNET這樣的數(shù)據(jù)庫被開發(fā)出來,那樣我們就能更好的整合這些資源來做好相關(guān)的科研工作。
[參考文獻]
[1] Bauer-Mehren A, Rautschka M, Sanz F, Furlong LI. DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze gene-disease networks. Bioinformatics. 2010 Nov 15;26(22):2924-6. doi: 10.1093/bioinformatics/btq538. Epub 2010 Sep 21. PMID: 20861032.
[2] Pi?ero J, Queralt-Rosinach N, Bravo à, Deu-Pons J, Bauer-Mehren A, Baron M, Sanz F, Furlong LI. DisGeNET: a discovery platform for the dynamical exploration of human diseases and their genes. Database (Oxford). 2015 Apr 15;2015:bav028. doi: 10.1093/database/bav028. PMID: 25877637; PMCID: PMC4397996.
[3] Queralt-Rosinach N, Pi?ero J, Bravo à, Sanz F, Furlong LI. DisGeNET-RDF: harnessing the innovative power of the Semantic Web to explore the genetic basis of diseases. Bioinformatics. 2016 Jul 15;32(14):2236-8. doi: 10.1093/bioinformatics/btw214. Epub 2016 Apr 22. PMID: 27153650; PMCID: PMC4937199.
[4] Pi?ero J, Bravo à, Queralt-Rosinach N, Gutiérrez-Sacristán A, Deu-Pons J, Centeno E, García-García J, Sanz F, Furlong LI. DisGeNET: a comprehensive platform integrating information on human disease-associated genes and variants. Nucleic Acids Res. 2017 Jan 4;45(D1):D833-D839. doi: 10.1093/nar/gkw943. Epub 2016 Oct 19. PMID: 27924018; PMCID: PMC5210640.
[5] Pi?ero J, Ramírez-Anguita JM, Saüch-Pitarch J, Ronzano F, Centeno E, Sanz F, Furlong LI. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Res. 2020 Jan 8;48(D1):D845-D855. doi: 10.1093/nar/gkz1021. PMID: 31680165; PMCID: PMC7145631.