OncoDB: an interactive online database for analysis of gene expression and viral infection in cancer
OncoDB:一個(gè)用于分析癌癥基因表達(dá)和病毒感染的交互式在線數(shù)據(jù)庫
摘要
TCGA是家喻戶曉的腫瘤多組學(xué)數(shù)據(jù)庫,包含的信息包括了基因表達(dá),基因突變,表觀遺傳的改變,臨床隨訪信息等等。但是,目前為止還缺乏系統(tǒng)整理分析腫瘤的基因表達(dá)失調(diào)和病毒感染之間的聯(lián)系,這是與病毒感染相關(guān)的腫瘤進(jìn)展的一個(gè)重點(diǎn)研究領(lǐng)域。為了解決這些未被滿足的需求,作者團(tuán)隊(duì)建立了OncoDB在線數(shù)據(jù)庫,用于探索與癌癥臨床特征相關(guān)的基因表達(dá)和病毒感染的聯(lián)系。接下來,我們來看看這個(gè)數(shù)據(jù)庫原文是怎么介紹這個(gè)工具的吧:
OncoDB整合了TCGA數(shù)據(jù)庫中超過10000名癌癥患者的RNA-seq、DNA甲基化和相關(guān)臨床數(shù)據(jù),以及GTEx研究中來自正常組織的數(shù)據(jù)。通過整理TCGA RNA- seq數(shù)據(jù),OncoDB選取6種主要的癌癥相關(guān)的病毒,進(jìn)一步將病毒感染與宿主基因表達(dá)和臨床結(jié)果的變化聯(lián)系起來。所有的分析結(jié)果通過一個(gè)交互的web工具集成在OncoDB中,以搜索與mRNA表達(dá)、DNA甲基化、病毒感染和癌癥患者的臨床特征相關(guān)的數(shù)據(jù)。
引言
TCGA提供了33種腫瘤臨床病理信息的基因組和表觀基因組數(shù)據(jù),這為腫瘤的分子機(jī)制探索,數(shù)據(jù)挖掘提供了重要的資源。然而,TCGA在統(tǒng)計(jì)分析或數(shù)據(jù)可視化方面目前只能依靠R語言進(jìn)行分析,對(duì)大多數(shù)缺乏生物信息學(xué)技能的研究人員來說,分析TCGA數(shù)據(jù)有一定的門檻。因此,開發(fā)用戶友好的在線數(shù)據(jù)庫來分析和可視化不同類型癌癥的異常分子變化是很重要的。
基于RNA-seq數(shù)據(jù),可以進(jìn)行差異分析來識(shí)別腫瘤和正常樣本之間顯著改變的基因。也可以利用表觀遺傳學(xué)的數(shù)據(jù),探索腫瘤進(jìn)展的機(jī)制,如DNA甲基化對(duì)RNA轉(zhuǎn)錄本的異常表觀遺傳調(diào)控。例如,TP53基因的高甲基化導(dǎo)致了乳腺癌不受抑制的增殖以及凋亡的抑制[1]。
將轉(zhuǎn)錄組和表觀基因組數(shù)據(jù)與臨床數(shù)據(jù)相關(guān)聯(lián),有助于識(shí)別疾病發(fā)展背后的分子機(jī)制[2]。Biomarker的探索可以用于癌癥診斷和預(yù)測(cè)癌癥的預(yù)后。許多mRNA signature已被報(bào)道用于預(yù)測(cè)癌癥患者的治療反應(yīng)和生存結(jié)局[3]。除了表觀遺傳的影響,另一個(gè)影響腫瘤治療效果以及預(yù)后的主要因素是患者感染的病毒種類。人類腫瘤相關(guān)的病毒 (癌病毒) 通常被認(rèn)為是癌癥發(fā)展的主要驅(qū)動(dòng)因素[4]。例如,HPV E7病毒相關(guān)蛋白可以通過破壞E2F-RB復(fù)合物使腫瘤抑制因子RB失活,并可以通過泛素-蛋白酶體途徑觸發(fā)RB的降解[5]。因此,探索癌病毒相關(guān)基因表達(dá)變化的有助于理解病毒誘發(fā)癌癥的潛在機(jī)制。
目前,針對(duì)TCGA數(shù)據(jù)集,已經(jīng)開發(fā)了多種癌癥基因組數(shù)據(jù)分析的在線數(shù)據(jù)庫。但到目前為止,還缺乏可以分析mRNA表達(dá)差異和DNA甲基化水平異常與腫瘤患者的臨床參數(shù)、預(yù)后的在線數(shù)據(jù)庫。此外,癌病毒與腫瘤mRNA表達(dá)之間的聯(lián)系,還沒有在線工具可以實(shí)現(xiàn)。為了解決這些需求,我們建立了OncoDB,一個(gè)全面的在線數(shù)據(jù)庫資源,以探索腫瘤中關(guān)鍵基因表達(dá)情況和病毒感染后基因表達(dá)的異常模式。
方法和結(jié)果
數(shù)據(jù)收集及處理
OncoDB中包含的數(shù)據(jù)集主要來自TCGA,包括來自9000多名癌癥患者的RNA-seq、DNA甲基化和臨床數(shù)據(jù)。從GDC數(shù)據(jù)門戶網(wǎng)站(https://portal.gdc.cancer.gov/)下載了腫瘤和匹配正常的RNA-seq數(shù)據(jù)。部分腫瘤的TCGA中正常對(duì)照樣本數(shù)量較少。為了解決這一限制,OncoDB納入了GTEx的1600多個(gè)正常樣本的RNA-seq數(shù)據(jù)[6,7]。GTEx是研究54個(gè)正常組織基因表達(dá)的公共數(shù)據(jù)庫。OncoDB開發(fā)了一個(gè)RNA-seq數(shù)據(jù)分析管道,采用了GDC推薦的標(biāo)準(zhǔn)(https: //docs.gdc.cancer.gov/)。(圖1)
第一步,腫瘤和正常的原始讀取都用STAR[8]與人類基因組對(duì)齊。比對(duì)后的reads被進(jìn)一步映射到人類RefSeq數(shù)據(jù)中對(duì)應(yīng)基因表達(dá)水平。另一方面,對(duì)于與人類基因組不匹配的reads,它們被進(jìn)一步與RefSeq數(shù)據(jù)庫[9]和PaVE數(shù)據(jù)庫[10]中所有已知的人類病毒基因組進(jìn)行了匹配,以確定每個(gè)腫瘤的病毒狀態(tài)。使用每百萬轉(zhuǎn)錄本(TPM)方法進(jìn)一步標(biāo)準(zhǔn)化原始基因水平的read counts。所有TCGA和GTEx數(shù)據(jù)使用相同的生物信息學(xué)管道處理。值得注意的是,在直接比較腫瘤組織和正常的差異時(shí),不同的組織來源的差異也會(huì)影響差異分析結(jié)果。因此,對(duì)比較結(jié)果的解讀需要謹(jǐn)慎。
原始DNA甲基化數(shù)據(jù)從GDC下載?;谌旧w定位標(biāo)識(shí),我們將每個(gè)甲基化探針定位到人類基因組中所有已知的基因?;騾^(qū)域由RefSeq注釋文件定義,而啟動(dòng)子區(qū)域和轉(zhuǎn)錄起始位點(diǎn)來自Fantom5[11]。從GDC平面文件中提取主要臨床參數(shù),癌癥的臨床分期、病理階段、組織學(xué)分級(jí)和性別。
OncoDB數(shù)據(jù)庫的開發(fā)
上述的所有處理過的數(shù)據(jù),都被導(dǎo)入到MySQL數(shù)據(jù)庫中。用Perl編寫的服務(wù)器端腳本用于數(shù)據(jù)分析和可視化。統(tǒng)計(jì)結(jié)果和相關(guān)數(shù)據(jù)由Perl-CGI結(jié)合Python或R統(tǒng)計(jì)程序生成。OncoDB提供四個(gè)主要分析模塊,包括mRNA表達(dá)分析、DNA甲基化分析、臨床分析和癌病毒分析。在OncoDB,可以分析mRNA表達(dá)和DNA甲基化數(shù)據(jù)與腫瘤患者臨床數(shù)據(jù)的相關(guān)性。在癌病毒模塊,分析感染病毒的患者的差異基因及其與臨床數(shù)據(jù)的相關(guān)性,以確定病毒相關(guān)的關(guān)鍵基因。下面列出了四個(gè)模塊的詳細(xì)信息:
RNA基因表達(dá)
基因表達(dá)異常是腫瘤發(fā)生的主要原因之一。因此,研究腫瘤和正常樣本之間的差異表達(dá)基因有助于推斷癌癥驅(qū)動(dòng)基因或潛在的治療靶點(diǎn)。此外,進(jìn)行基因間的相關(guān)性分析有助于識(shí)別基因調(diào)控網(wǎng)絡(luò)中的功能基因相互作用。在RNA表達(dá)分析模塊中,實(shí)現(xiàn)了三個(gè)主要功能,以實(shí)現(xiàn)統(tǒng)計(jì)分析和結(jié)果可視化,包括差異基因表達(dá)分析、基因共表達(dá)相關(guān)性分析。計(jì)算腫瘤和正常兩組間的Log 2FC變化值,以確定一個(gè)基因在腫瘤樣本中是上調(diào)還是下調(diào)。差異表達(dá)分析采用Student‘s t-檢驗(yàn)。采用Pearson相關(guān)分析評(píng)價(jià)兩個(gè)基因之間的相關(guān)性。
網(wǎng)頁界面來搜索用戶指定基因在一種或多種癌癥類型中的表達(dá)譜,可視化為箱線圖(圖2A),并展示統(tǒng)計(jì)結(jié)果。此外,對(duì)于指定的癌癥,OncoDB可以計(jì)算差異最顯著的基因。除了比較腫瘤和正常樣本之間基因表達(dá)差異外,用戶還可以對(duì)任意選擇的癌癥類型進(jìn)行兩個(gè)感興趣基因之間的相關(guān)性分析。將兩個(gè)輸入基因的Pearson相關(guān)分析結(jié)果可視化為散點(diǎn)圖 (圖2B)。
甲基化分析
表觀遺傳異常導(dǎo)致mRNA表達(dá)異常,并在癌癥發(fā)展中起著協(xié)同的作用。為此,甲基化分析模塊有兩個(gè)功能,包括關(guān)鍵基因的篩選和腫瘤之間甲基化分析。通過腫瘤樣本和配對(duì)正常組織樣本進(jìn)行比較,以確定甲基化模式的差異。對(duì)于用戶指定的基因,差異甲基化分析可以確定改變的基因區(qū)域(包括啟動(dòng)子和基因本體)??梢暬哉劬€圖展示了腫瘤或正常樣本的基因結(jié)構(gòu)(包括啟動(dòng)子、外顯子和內(nèi)含子)中每個(gè)探針的平均甲基化水平(如圖2C所示)。此外,探針的分析結(jié)果也呈現(xiàn)在一個(gè)表格中,顯示具有統(tǒng)計(jì)學(xué)意義的探針?;蚣谆嬖诓町愂峭ㄟ^比較每個(gè)基因在腫瘤和正常樣本之間的平均探針強(qiáng)度來確定。
臨床分析
臨床分析模塊支持臨床數(shù)據(jù)和基因或者基因甲基化水平之間的相關(guān)性分析。OncoDB數(shù)據(jù)庫收錄各個(gè)腫瘤患者的臨床數(shù)據(jù),包括各種臨床參數(shù)、生存時(shí)間和結(jié)果狀態(tài),并可以分析與單個(gè)基因的相關(guān)性。臨床參數(shù)包括了TMN分期和年齡、飲酒、性別、組織學(xué)、吸煙、BMI、家族史和種族等。當(dāng)用戶指定一個(gè)基因進(jìn)行分析時(shí),可繪制mRNA差異表達(dá)的箱線圖或DNA甲基化數(shù)據(jù)的折線圖(如圖2D)。
生存分析Kaplan-Meier (KM),呈現(xiàn)用戶指定基因在特定癌癥類型中的KM曲線。根據(jù)RNA表達(dá)或DNA甲基化的水平,所選定的癌癥病例都可用戶定義的截?cái)喟俜直确譃楦呓M或低組。此外,還提供了統(tǒng)計(jì)數(shù)據(jù),包括log-rank檢驗(yàn)的p值,Cox比例回歸分析的風(fēng)險(xiǎn)比HR。如果所選擇的基因與多個(gè)臨床參數(shù)有顯著的相關(guān)性,也將提供一個(gè)表格來總結(jié)統(tǒng)計(jì)分析結(jié)果。
腫瘤病毒分析
感染病毒也是引起腫瘤的原因之一,可導(dǎo)致不同基因調(diào)控水平的異常變化,如mRNA表達(dá)和DNA甲基化。因此,對(duì)病毒陽性和病毒陰性腫瘤的差異基因分析,甲基化分析的研究可以幫助我們確定人類轉(zhuǎn)錄組中的病毒靶點(diǎn),為病毒有關(guān)的腫瘤提供更多機(jī)制上的信息。在OncoDB中,每個(gè)腫瘤樣本的病毒狀態(tài)通過分析管道確定(圖1),然后用于根據(jù)用戶指定的癌癥類型對(duì)患者病例進(jìn)行分組。通過這種方式,可以進(jìn)行mRNA差異表達(dá)或DNA甲基化分析,以確定與病毒感染相關(guān)的變化。
在癌病毒分析模塊中,可以評(píng)估在癌癥中用戶指定的基因的與某種病毒的潛在相關(guān)性?;虻牟町惐磉_(dá)分析用箱線圖,甲基化分析用折線圖顯示,以直觀地比較病毒陽性組和病毒陰性組(圖3A、B)。
感染病毒與對(duì)照組的差異基因分析可以得出與病毒狀態(tài)相關(guān)的基因,并展示在表格中。指定某個(gè)腫瘤的分析可以用來識(shí)別與特定病毒和腫瘤相關(guān)的所有差異基因,有詳細(xì)的表格統(tǒng)計(jì)分析結(jié)果。
腫瘤病毒分析模塊還可以分析臨床數(shù)據(jù)與各種病毒相關(guān)基因的相關(guān)性。例如,用戶可以進(jìn)行患者生存分析,分別評(píng)估病毒陽性組或病毒陰性組中某個(gè)基因的預(yù)后意義,并繪制KM曲線圖。圖3C顯示了HPV陽性宮頸癌中基于CDKN2A基因表達(dá)分析示例圖。圖3D顯示了宮頸癌中按HPV狀態(tài)分組的生存圖。用戶還可以通過指定病毒和癌癥的類型以及感興趣的臨床參數(shù),對(duì)基因進(jìn)行病毒和臨床參數(shù)聯(lián)合分析。最后,用戶可以得到特定病毒病人群體的癌病毒基因表達(dá),從而將病毒基因譜與腫瘤病人的臨床參數(shù)關(guān)聯(lián)起來。
結(jié)論
OncoDB是一個(gè)全面分析TCGA數(shù)據(jù)的在線工具。OncoDB的獨(dú)特的癌病毒分析模塊整合了病毒感染狀態(tài)與癌癥基因組和臨床數(shù)據(jù)。這一模塊為腫瘤病毒在癌癥發(fā)展和進(jìn)展中的作用提供了更多的信息。
小編有話說
腫瘤與病毒,我們能想到的是HPV與宮頸癌,HBV與消化道的腫瘤,這樣的主題,結(jié)合一些免疫,自噬,鐵死亡再進(jìn)行挖掘,不是很美妙嗎?
1. Ghavifekr Fakhr M, Rezaie Kahkhaie K, Shanehbandi D, et al. Scrophularia Atropatana Extract Reverses TP53 Gene Promoter Hypermethylation and Decreases Survivin Antiapoptotic Gene Expression in Breast Cancer Cells. Asian Pacific journal of cancer prevention : APJCP. 2018;199:2599-2605.
2. Liu J, Lichtenberg T, Hoadley KA, et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 2018;1732:400-416.e411.
3. Kamel HFM, Al-Amodi HSAB. Exploitation of Gene Expression and Cancer Biomarkers in Paving the Path to Era of Personalized Medicine. Genomics, Proteomics & Bioinformatics. 2017;154:220-235.
4. Masucci MG, Rickinson AB. Emerging topics in human tumor virology. Seminars in Cancer Biology. 2014;26:1-3.
5. zur Hausen H. Papillomaviruses and cancer: from basic studies to clinical application. Nature Reviews Cancer. 2002;25:342-350.
6. Lonsdale J, Thomas J, Salvatore M, et al. The Genotype-Tissue Expression (GTEx) project. Nat Genet. 2013;456:580-585.
7. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science (New York, NY). 2015;3486235:648-660.
8. Dobin A, Davis CA, Schlesinger F, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;291:15-21.
9. Dobay MP, Dobay A. NCBI Viral Genomes Resources. In: Dubitzky W, Wolkenhauer O, Cho K-H, Yokota H, eds. Encyclopedia of Systems Biology. New York, NY: Springer New York; 2013:1502-1504.
10. Van Doorslaer K, Li Z, Xirasagar S, et al. The Papillomavirus Episteme: a major update to the papillomavirus sequence database. Nucleic Acids Res. 2017;45D1:D499-d506.
11. Lizio M, Harshbarger J, Shimoji H, et al. Gateways to the FANTOM5 promoter level mammalian expression atlas. Genome Biology. 2015;161:22.