大家好呀!今天給大家介紹一篇發(fā)表在Briefings in Bioinformatics(IF:11.622)上的文章。作者對TFs的表達,調(diào)控,互作,突變,表型和腫瘤患者生存情況進行了系統(tǒng)的研究。
摘要:
轉(zhuǎn)錄因子(TFs)通過控制基因表達在調(diào)控多種生物過程中起到關(guān)鍵作用。本研究,作者對TFs的表達,調(diào)控,互作,突變,表型和腫瘤患者生存情況進行了系統(tǒng)的研究。作者的研究發(fā)現(xiàn),正常組織中TFs的表達水平低于non-TFs,腫瘤組織中TFs的表達水平較高。特定組織或癌癥中特異表達的TFs可以作為潛在的標記基因。例如,TGIF2LX/Y在睪丸組織中特異表達,而NEUROG1,PRDM14,SRY,ZNF705A和ZNF716在生殖細胞腫瘤中特異高表達。作者發(fā)現(xiàn)不同TF家族中TF和靶基因共調(diào)控作用存在差異。一些小的TF家族具有蛋白質(zhì)互作對,他們在轉(zhuǎn)錄調(diào)控中發(fā)揮核心作用。bZIP家族是涉及多條信號通路的TF家族。生存分析表明,大多數(shù)TFs會顯著影響一種或多種癌癥的生存情況。生存相關(guān)的TFs在相應(yīng)的腫瘤中特異表達,表明他們的癌癥驅(qū)動作用。對TF家族的系統(tǒng)分析為進一步研究TF的調(diào)控機制和TF在疾病中的作用提供了有價值的信息。
材料與方法:
1.從AnimalTFDB3.0獲取人類TFs,共包括1665個TFs。從Human Protein Atlas獲取37類正常組織的RNA表達數(shù)據(jù)。從TCGA獲取33類癌癥的RNA表達數(shù)據(jù)。從hTFtarget數(shù)據(jù)庫獲取TF-靶基因?qū)Α腍PRD和BioGRID獲取TF-protein/TF-physical互作數(shù)據(jù)。從MalaCards,Ensembl Biomart和AnimalTFDB3.0獲取TFs的表型數(shù)據(jù)。從KEGG數(shù)據(jù)庫獲取KEGG通路數(shù)據(jù)。從GSCALite數(shù)據(jù)庫獲取生存數(shù)據(jù),TF的SNV和CNV數(shù)據(jù)。
2.使用SEGtool做鑒定SEGs(特異過表達基因)。
3.根據(jù)TF-靶基因數(shù)據(jù),作者分析調(diào)控同一靶基因的TFs即共表達TFs。作者將基因的TSS上游50kb定義為核心區(qū)域來預(yù)測候選共表達TFs。此外,共表達TF必須是TF和靶基因在同一組織或腫瘤中表達。
4.作者對KEGG通路和表型數(shù)據(jù)中的TFs和排名前10的TF家族進行富集分析。
5.根據(jù)表達水平的中位數(shù),將患者分為高表達組和地表達組。根據(jù)TF是否發(fā)生突變對樣本進行分組。Cox回歸分析評估突變組樣本的風(fēng)險比。KM分析兩組的OS差異。
6.作者計算不同癌癥中每個基因發(fā)生CNV的頻率。使用Pearson相關(guān)性計算CNV頻率和TF表達水平之間的相關(guān)性。
結(jié)果:
1.TF在正常組和腫瘤組織中的表達水平
作者分析了37個正常組織和33個腫瘤組織中1665個TFs的表達水平。其中分別有1641和1557個TFs至少在一個組織或一個腫瘤中表達。與non-TF相比,TF在正常組織中的表達水平較低(圖1A)。有30個腫瘤組織中的TF表達水平低于non-TF,而在KICH,LAML和TGCT組織中TF的表達水平高于non-TF(圖1B)。此外,作者隨機選擇相同數(shù)量的non-TF和TF的表達水平進行多次比較,其結(jié)果與總體比較結(jié)果類似。與癌旁組織相比,TF在7個腫瘤組織的表達水平較高而在9個腫瘤組織的表達水平較低(圖1C)。TF在腫瘤組織的表達水平顯著高于正常組織(圖1D)。這些結(jié)果表明,從正常組織到腫瘤組織TF的表達水平受到擾動,說明TF在癌變過程中發(fā)揮重要作用。
2.正常組織和腫瘤組織中特異表達的TFs
為進一步分析特異表達TFs,作者分別在正常組織和腫瘤組織中鑒定到236和476個特異表達TF(SEG-TFs)(圖2A)。正常組織中的SEG-TFs中有223個TFs特異高表達(SEG-H-TFs)和13個TFs特異低表達(SEG-L-TFs)。睪丸和大腦皮層中的SEG-TFs數(shù)量最多(圖2A)。此外,有187個TFs在單一組織中特異表達,可以作為單一組織中的標記基因。例如,有14個TFs在睪丸組織中高表達,如TGIF2LX/Y和HMGB4。一般來說,共有SEG-TF多的組織具有相似的生理功能和細胞組成。例如,十二指腸和小腸組織共有8個SEG-TFs,如ATOH1,CDX1和CDX2。
在癌癥的467個SEG-TFs中有322個在一種腫瘤組織中特異高表達,有13個SEG-TFs僅在一種腫瘤組織中表達。1665個TF根據(jù)保守的DNA結(jié)合與分為73個TF家族,每個家族的TF數(shù)量不同(圖2B)。與正常組織相比,腫瘤組織中特異表達的TF數(shù)量更高(圖2C)。例如,在ESR-like家族中有9個是腫瘤組織的SEG-TF。
3.TF調(diào)控靶基因
作者從hTFtarget數(shù)據(jù)庫中收集了2712247個TF-靶基因?qū)?,涉?6個TF家族的542個TF和19369個靶基因。因此,325個TF調(diào)控1000多個靶基因(圖3A),其中SPI1是靶基因數(shù)量最多的TF。有35個基因僅受一個TF調(diào)控,大多數(shù)是zf-C2H2,Homeobox和ETS家族成員(圖3B)。例如,有12個基因僅受zf-C2H2家族CTCF的調(diào)控。一些TF家族成員具有數(shù)百上千個TF-靶基因?qū)Γ▓D3C)。然而,一些TF數(shù)量較少的TF家族也有很多TF-靶基因?qū)?,例如zf-GATA和STAT家族(圖3C和3D)。此外,這些家族中不同TF的靶基因數(shù)量差異較大(圖3D)。這些結(jié)果表明同一家族的不同成員可能參與不同的功能。
4.TFs共調(diào)控
作者共發(fā)現(xiàn)56個TF家族參與共調(diào)控(圖3E)。CBF,NF-YA和NF-YB等家族完全參與共調(diào)控,而CSRNP-N,DACH和GCFC等家族沒有參與共調(diào)控(圖3E)。MYC和GATA1共調(diào)控數(shù)千個靶基因,已有報道表明GATA1/MYC在白血病細胞系K562中發(fā)揮作用。
5.TF-蛋白質(zhì)互作
為建立TF-蛋白質(zhì)互作的全基因圖譜,作者整合HPRD和BioGRID的TF-蛋白質(zhì)互作對。最終共得到44729對TF-蛋白質(zhì)互作對(圖4A)。TF-TF互作對和TF-蛋白質(zhì)互作對類似。一些ESR-like,MH1和P53等小的TF家族有大量TF-TF互作對(圖4B)。P53家族中僅有的3個TF均與其他39個TF家族互作(圖4B和4C),表明P53家族的重要性。此外,一些TF家族與其他TF家族互作。例如MH1家族有8個TF與42個TF家族中的179個TF互作(圖4A和4C)。
6.TF和疾病
大約有8%的蛋白編碼基因是TFs,TFs與疾病表型密切相關(guān)。有1138個TFs具有表型數(shù)據(jù),333個TFs具有KEGG通路數(shù)據(jù)。富集分析表明與癌癥中轉(zhuǎn)錄調(diào)控異常有關(guān)的轉(zhuǎn)錄因子數(shù)量最多(圖5A)。此外,TFs在其他疾病相關(guān)通路中富集,如成熟性糖尿病和調(diào)節(jié)干細胞多能型信號通路等(圖5A)。一些TF家族顯著富集于特定的疾病類型中,這可能與TF家族的SEGs和功能密切相關(guān)。因此,作者對20多個TF家族進行KEGG富集分析(圖5B)。結(jié)果表明,TF-bZIP家族中有54個TFs在多條通路中顯著富集。
7.TFs顯著影響癌癥生存情況
作者對33個腫瘤組織的TF表達水平和預(yù)后進行KM分析。結(jié)果表明,有1448個TFs至少與一種癌癥的預(yù)后顯著相關(guān)(圖6A)。其中有3個TF與11種癌癥預(yù)后有關(guān),有125個TF僅與一種癌癥預(yù)后有關(guān)。其中KIRC和LGG生存相關(guān)的TFs數(shù)量最多。這些TFs可能在腫瘤發(fā)生和預(yù)后中發(fā)揮重要作用。結(jié)合SEG分析,作者鑒定到40個TF與癌癥預(yù)后顯著相關(guān),可以作為癌癥的預(yù)后標志物。在大多數(shù)癌癥中,50%的TFs與預(yù)后較好有關(guān)(圖6B)。bHLH,TF-bZIP,Homeobox和zf-C2HC等TF家族幾乎在所有癌癥中均存在顯著TF(圖6C)。TGCT中僅有一個與生存相關(guān)TF(FIGLA),而NDT80/PhoG,GCFC和NCU-G1家族中沒有與生存相關(guān)的TF。此外,對排名前100個TFs進行生存分析,這些TFs影響11種癌癥的預(yù)后(圖6D)。排名前4個TFs與總生存期顯著相關(guān)(圖6E)。
8.TF突變
接下來,作者對TFs的SNV和CNV進行分析。為鑒定癌癥發(fā)展中的關(guān)鍵基因,選擇至少在一種腫瘤中突變頻率高于10%的TF進行分析,共得到80個TFs。這80個TFs在癌癥中的突變情況如圖7A所示。其中UCEC,SKCM和COAD是發(fā)生TF突變數(shù)量最高的三種癌癥。TP53是突變頻率最高的基因。TP53在UCS中的突變頻率為91.2%,OV中的突變頻率為87.7%,ESCA中的突變頻率為85.9%和READ中的突變頻率為85.6%。此外,作者進一步分析了TF突變與腫瘤生存情況的相關(guān)性。有43個TFs突變與腫瘤生存顯著相關(guān)(圖7B),其中有33個TFs為高突變TFs,70%以上的TFs與低生存率有關(guān)(圖7B)。例如,ACC中有9個TFs的突變與預(yù)后不良有關(guān)。此外,作者計算了不同癌癥中每個基因的CNV頻率并分析其與表達的相關(guān)性。相關(guān)性分析表明,60個TFs的CNVs與表達顯著相關(guān)(圖7C)。
結(jié)論:
作者全面分析了全基因組范圍內(nèi)腫瘤組織和正常組織中的TFs的表達水平,特異表達情況,靶基因共調(diào)控情況,TFs與腫瘤生存情況和TFs的突變情況。本研究為研究人員理解轉(zhuǎn)錄因子如何發(fā)揮調(diào)控作用,為今后TF調(diào)控網(wǎng)絡(luò)的研究奠定基礎(chǔ)。TF的突變和生存分析表明,一些關(guān)鍵TF基因可以作為潛在的標記基因。本研究為人類轉(zhuǎn)錄調(diào)控研究提供有價值的信息。