全基因組關(guān)聯(lián)研究(Genome Wide Association Studies, GWAS)可以將特定基因與疾病聯(lián)系起來(lái),幫助我們了解疾病的遺傳基礎(chǔ)。為了確定這些基因如何導(dǎo)致疾病,需要了解它們編碼的蛋白質(zhì)的功能,并將特定的生物過(guò)程與疾病聯(lián)系起來(lái)。相互作用的蛋白質(zhì)往往具有相似的功能,進(jìn)而表現(xiàn)出相似的表型,可以說(shuō)GWAS是將遺傳藍(lán)圖與疾病表型聯(lián)系起來(lái)。
最近,一項(xiàng)發(fā)表在《Nature Genetics》雜志上的新研究中,研究人員創(chuàng)建了一個(gè)相互作用蛋白網(wǎng)絡(luò),也被稱為相互作用組,匯集了來(lái)自不同來(lái)源的證據(jù),包括IntAct、Reactome、 SIGNOR這3個(gè)數(shù)據(jù)庫(kù)的蛋白質(zhì)相互作用數(shù)據(jù)。利用這個(gè)相互作用組,研究人員確定了與基因相互作用的蛋白質(zhì)組,對(duì)1002種人類特征進(jìn)行了基于網(wǎng)絡(luò)的擴(kuò)展,發(fā)現(xiàn)這種方法可以恢復(fù)已知的疾病基因或藥物靶點(diǎn),為新靶點(diǎn)發(fā)現(xiàn)和藥物再利用產(chǎn)生了一系列新的見(jiàn)解。
內(nèi)容解讀
1.通過(guò)網(wǎng)絡(luò)擴(kuò)展增強(qiáng)GWAS的能力
選擇IntAct、Reactome、 SIGNOR這3個(gè)數(shù)據(jù)庫(kù)的蛋白質(zhì)相互作用數(shù)據(jù),并通過(guò)Neo4j圖形數(shù)據(jù)庫(kù)整合了上述數(shù)據(jù),稱為“OTAR交互組”。所有上述蛋白質(zhì)相互作用數(shù)據(jù)與STRING數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)合,得到了一個(gè)包含18410個(gè)節(jié)點(diǎn)和571917條邊的網(wǎng)絡(luò)(圖1a),這個(gè)網(wǎng)絡(luò)也被稱為相互作用組。使用來(lái)自O(shè)pen Targets Genetics的L2G評(píng)分模型將GWAS性狀關(guān)聯(lián)映射到基因,L2G評(píng)分模型組成如圖1b。對(duì)于每個(gè)GWAS性狀,相關(guān)基因被用作相互作用網(wǎng)絡(luò)中的“種子”,使用個(gè)性化PageRank(PPR)算法對(duì)網(wǎng)絡(luò)中所有其他蛋白質(zhì)編碼基因進(jìn)行評(píng)分,通過(guò)短路徑連接到GWAS性狀的基因獲得更高的分?jǐn)?shù)(圖1c)。利用這個(gè)相互作用組,確定了與基因相互作用的蛋白質(zhì)組,這些基因已通過(guò) GWAS 與來(lái)自 21 個(gè)治療領(lǐng)域的 1002 種人類特征相關(guān)聯(lián)(圖1d)。為了評(píng)估網(wǎng)絡(luò)擴(kuò)展恢復(fù)性狀相關(guān)基因的能力,作者還進(jìn)行了基準(zhǔn)測(cè)試(圖1e)。
2.網(wǎng)絡(luò)擴(kuò)展識(shí)別相關(guān)的人類特征
用于治療某種疾病的藥物可能對(duì)相關(guān)疾病也有療效,因此識(shí)別可能具有共同遺傳基礎(chǔ)的性狀具有重要價(jià)值。網(wǎng)絡(luò)擴(kuò)展分?jǐn)?shù)可以從任何GWAS可用的候選基因集計(jì)算出來(lái),使用實(shí)驗(yàn)因子本體(Experimental Factor Ontology, EFO)中注釋的相似性,對(duì)基于網(wǎng)絡(luò)擴(kuò)展的性狀-性狀關(guān)聯(lián)進(jìn)行基準(zhǔn)測(cè)試,網(wǎng)絡(luò)擴(kuò)展分?jǐn)?shù)的相似性確定了可能共享潛在遺傳和生物學(xué)過(guò)程的特征組。利用網(wǎng)絡(luò)擴(kuò)展分?jǐn)?shù)的兩兩距離構(gòu)建層次聚類樹(shù),定義了54個(gè)性狀亞群。性狀傾向于根據(jù)功能相似性分組,54個(gè)性狀中有34個(gè)的EFO項(xiàng)注釋到組內(nèi)50%以上的性狀(圖2a)。在圖2b中,展示了根據(jù)網(wǎng)絡(luò)擴(kuò)展分?jǐn)?shù)分組特征的例子。從ChEMBL數(shù)據(jù)庫(kù)中獲得各聚類疾病的藥物適應(yīng)證,從而找到可以藥物再利用的聚類以及藥物開(kāi)發(fā)最需要的特性組。
3.跨人類性狀的基因模塊的多效性
通過(guò)識(shí)別與人類特征相關(guān)的基因模塊,來(lái)研究人類細(xì)胞生物學(xué)的多效性,從而能夠了解細(xì)胞生物學(xué)特定方面的擾動(dòng)如何對(duì)多個(gè)特征產(chǎn)生廣泛的影響??偣舶l(fā)現(xiàn)2021個(gè)基因模塊與性狀之間的關(guān)聯(lián),其中886個(gè)(43.8%)是與單個(gè)性狀相關(guān)的基因模塊,73個(gè)是與2種或2種以上性狀相關(guān)的多效性基因模塊(圖3a)。其中,與6個(gè)多效性最強(qiáng)的基因模塊相關(guān)的性狀數(shù)量在56-110個(gè)不等,這些模塊富含參與蛋白質(zhì)泛素化、細(xì)胞外基質(zhì)組織、RNA加工、G蛋白偶聯(lián)受體(GPCR)信號(hào)傳導(dǎo)等過(guò)程的基因(圖3b)。
4.共享機(jī)制和藥物再利用機(jī)會(huì)
與基因缺失研究相反,這里定義的多效性捕捉了多細(xì)胞相關(guān)過(guò)程。研究人員展示了與人類疾病相關(guān)模塊的2個(gè)例子,這些模塊富含具有已知致病性變異的基因,可用于繪制已批準(zhǔn)藥物的靶點(diǎn),以便于重新再利用。
(1)與骨和筋膜炎相關(guān)的特征可能具有共同的決定基因模塊,該基因模塊在Wnt信號(hào)相關(guān)基因中富集(圖3c)。先前報(bào)道Wnt信號(hào)基因與骨穩(wěn)態(tài)以及不同類型的筋膜炎和掌腱膜攣縮相關(guān);該基因模塊富集于攜帶ClinVar變異的基因,這些變異來(lái)自牙缺失和骨相關(guān)疾病患者;具有ClinVar變體的幾個(gè)基因,如LRP6,SOST,WNT1,WNT10A和WNT10B,但通過(guò)GWAS,發(fā)現(xiàn)與骨骼疾病無(wú)關(guān)。在小鼠模型中,該模塊的幾個(gè)基因與骨密度變化有關(guān);此外,該模塊包含Romosozumab的靶點(diǎn)(SOST), Romosozumab是一種已被證明有效的治療骨質(zhì)疏松的藥物。
(2)呼吸道和皮膚相關(guān)的10種免疫疾病共享三個(gè)基因模塊,一是與轉(zhuǎn)錄和蛋白酶體調(diào)節(jié)相關(guān)的高度多效性模塊;二是與模式識(shí)別受體信號(hào)相關(guān)的特異模塊;三是與JAK-STAT參與的細(xì)胞因子產(chǎn)生相關(guān)的特異模塊;這些模塊在哮喘患者可能具有致病變異的基因中顯著富集。對(duì)兩個(gè)最特異的基因模塊進(jìn)行分組,如圖3d所示。幾個(gè)已知致病變異基因(例如IRAK3, TNF, ALOX5, TBX21),但是通過(guò)GWAS,發(fā)現(xiàn)這些基因與上述疾病無(wú)關(guān)。IRAK3,一種編碼蛋白質(zhì)的假激酶,是GWAS未鑒定出的可用于哮喘的成藥性基因的一個(gè)例子,而研究已經(jīng)發(fā)現(xiàn)IRAK3的蛋白錯(cuò)義突變與哮喘有關(guān),并且小鼠模型研究表明,在白介素-33 (IL-33)誘導(dǎo)的氣道炎癥中,IRAK3受到調(diào)節(jié)。雖然臨床上尚未使用針對(duì)IRAK3的藥物,但這一分析提示,它可能成為哮喘和其他相關(guān)疾病的藥物靶標(biāo)。
作者在圖3d所示的模塊中鑒定了126種藥物的41個(gè)基因靶點(diǎn)。為了確定可能具有重新再利用潛力的藥物,排除了那些已經(jīng)有針對(duì)治療領(lǐng)域的藥物,包括與該基因模塊相關(guān)的10種疾病,由此產(chǎn)生了18種靶向5個(gè)基因的藥物,包括:14種靶向PTGS2的藥物,主要用于治療風(fēng)濕性疾病和骨關(guān)節(jié)炎;干擾素ALFACON-1或ALFA-2B(靶向IFNAR1和IFNAR2),主要對(duì)抗病毒感染;GALIXIMAB(CD80的抗體),淋巴瘤III期試驗(yàn);以及針對(duì)結(jié)直腸癌IL1A的抗體RA-18C3。這些藥物可用于呼吸道或皮膚自身免疫相關(guān)疾病。例如,RA-18C3在一項(xiàng)針對(duì)化膿性汗腺炎(反常性痤瘡)的小型II期試驗(yàn)中顯示出益處。
5.相關(guān)免疫介導(dǎo)疾病的基因模塊分析
與免疫系統(tǒng)相關(guān)的特征在分析中是一個(gè)很好的代表,可以分為3組:第一組包含系統(tǒng)性和器官特異性疾?。坏诙M是免疫細(xì)胞測(cè)定;第三組是異質(zhì)性更強(qiáng)的集群。第一組聚類分析顯示,可以細(xì)分為包含15種疾病的2個(gè)亞群:①炎癥性腸病 (IBD) 、多發(fā)性硬化(MS)和系統(tǒng)性紅斑狼瘡(LES)等9種疾??;②乳糜瀉(CeD)、白癜風(fēng)(vit)等6種疾??;作者發(fā)現(xiàn)與GPCR信號(hào)傳導(dǎo),中性粒細(xì)胞活化和干擾素信號(hào)傳導(dǎo)等相關(guān)的6個(gè)基因模塊,至少在不同亞群性狀中的一個(gè)中富集(圖4a,左),存在于這些模塊中的基因在關(guān)鍵免疫組織中有較高的表達(dá)量(圖4a,右)。
如圖4b所示,當(dāng)存在顯著的基因水平重疊時(shí),基因模塊之間存在緊密聯(lián)系。從與至少3種免疫介導(dǎo)疾病連鎖的模塊中選擇了基因,并保持了高置信的交互作用子集。結(jié)果顯示,在原發(fā)性免疫缺陷患者中發(fā)現(xiàn)了攜帶ClinVar變異體的多個(gè)基因(例如IRF9、IRF7、STAT1、STAT2),這些基因不是GWAS連接的基因,但在其網(wǎng)絡(luò)附近,因此證明了該基因模塊對(duì)這些疾病的重要性。
為了確定具有再利用潛力的藥物,作者排除了與免疫介導(dǎo)的疾病組在相同治療領(lǐng)域靶向疾病的藥物,最終確定了有20個(gè)靶點(diǎn)的49種藥物。其中包括ulimorelin,是饑餓素(Ghrelin)促分泌劑受體GHSR的激動(dòng)劑,用于治療胃腸道梗阻。先前已經(jīng)有文獻(xiàn)報(bào)道在與年齡相關(guān)的慢性炎癥、銀屑病和炎癥性腸病的背景下研究了胃Ghrelin激素信號(hào),這提示了藥物的潛在再利用機(jī)會(huì)。
6.網(wǎng)絡(luò)輔助IBD候選基因優(yōu)先級(jí)排序
在單個(gè)GWAS位點(diǎn)識(shí)別致病基因?qū)τ诖_定治療靶點(diǎn)的優(yōu)先順序很重要,在本研究中,使用網(wǎng)絡(luò)擴(kuò)展方法對(duì)IBD GWAS基因座中的基因進(jìn)行優(yōu)先級(jí)排序。使用兩種替代方法來(lái)定義網(wǎng)絡(luò)的“種子”基因。一是手動(dòng)篩選了37個(gè)高置信度與克羅恩病或潰瘍性結(jié)腸炎有因果關(guān)系的基因,二是使用Open Targets L2G評(píng)分在已建立的IBD基因座自動(dòng)選擇了110個(gè)L2G > 0.5的基因。經(jīng)過(guò)手動(dòng)篩選的種子基因在200 kb范圍內(nèi)的網(wǎng)絡(luò)得分遠(yuǎn)高于其他基因,表明大多數(shù)種子基因與其他種子基因有密切的交互作用(圖5a)。當(dāng)只考慮L2G基因集中的種子基因時(shí),情況也是如此,表明其中許多也是強(qiáng)的IBD候選基因(圖5b)。最后,檢測(cè)了低SNP P值在10 kb內(nèi)具有高網(wǎng)絡(luò)評(píng)分的基因中的富集情況。發(fā)現(xiàn)在網(wǎng)絡(luò)評(píng)分較高的基因附近,低P值逐漸富集(圖5c),這是由于與SNPs連鎖的大量基因未達(dá)到用于發(fā)現(xiàn)基因座所需的典型全基因組顯著性閾值(5×10 - 8)。
將手動(dòng)篩選的37個(gè)高置信IBD基因稱為“精選基因”, L2G網(wǎng)絡(luò)評(píng)分最終篩選出的42個(gè)基因稱為“候選基因”。精選基因包括藥物靶點(diǎn)TYK2、ICAM1和ITGA4,以及NOD2和IL23R,這些基因存在錯(cuò)義變異體,提示它們是IBD的調(diào)節(jié)劑。最近有證據(jù)證實(shí)候選基因中有些基因也是強(qiáng)有力的IBD基因。RIPK2被證實(shí)與細(xì)菌傳感器NOD2的相互作用編碼炎癥信號(hào)傳導(dǎo)介質(zhì);有研究發(fā)現(xiàn)SLC26A3表達(dá)與潰瘍性結(jié)腸炎的臨床結(jié)局相關(guān);網(wǎng)絡(luò)評(píng)分高但尚未在IBD背景下有明確特征的IBD候選基因還有PTPRC (T細(xì)胞活化所需的磷酸酶)和BTBD8,網(wǎng)絡(luò)分析發(fā)現(xiàn) BTBD8通過(guò)WIPI2和ATG16L1參與自噬調(diào)節(jié)。
為了研究精選和候選基因的多效性,作者研究了與IBD相關(guān)的8個(gè)基因模塊。在37個(gè)精選基因和42個(gè)候選基因中,35個(gè)(14個(gè)精選和21個(gè)候選基因)位于這些模塊中。有趣的是,大多數(shù)這些基因都位于只與IBD相關(guān)的模塊中,特別是一個(gè)模塊富集了與通過(guò)JAK-STAT通路的受體信號(hào)通路相關(guān)的基因。相反,與IBD相關(guān)的最多效性模塊中只有很少的IBD候選基因。與作者預(yù)期一致,這些多效性模塊大多數(shù)與免疫系統(tǒng)相關(guān)的特征有關(guān),但最多效性模塊則主要富集于與蛋白質(zhì)泛素化相關(guān)的基因。這一分析表明JAK-STAT相關(guān)模塊可能是更傾向于IBD特異性的新型候選疾病基因和藥物靶點(diǎn)的最佳來(lái)源。
總結(jié)
本研究中,作者聯(lián)合IntAct、Reactome、 SIGNOR和STRING數(shù)據(jù)庫(kù),得到了一個(gè)包含18410個(gè)節(jié)點(diǎn)和571917條邊的相互作用組。利用這個(gè)相互作用組,確定了與基因相互作用的蛋白質(zhì)組,這些基因已通過(guò) GWAS 與來(lái)自 21 個(gè)治療領(lǐng)域的 1002 種人類特征相關(guān)聯(lián),從而進(jìn)一步鑒定出了73個(gè)多效性基因模塊,詳細(xì)介紹了其中的2個(gè)例子(骨和筋膜炎共享基因模塊以及呼吸道和皮膚相關(guān)的10種免疫疾病共享基因模塊)。了解這些多效性關(guān)系對(duì)于藥物發(fā)現(xiàn)和靶點(diǎn)再利用來(lái)說(shuō)是無(wú)價(jià)的,因?yàn)樗鼈儽砻髁艘环N疾病的治療可能對(duì)另一種疾病也有效的機(jī)會(huì)。此外,它們還可以提示避免使用某些藥物靶點(diǎn),因?yàn)榘邢蜻@些靶點(diǎn)可能會(huì)導(dǎo)致不必要的副作用。最后,作者闡述了利用網(wǎng)絡(luò)擴(kuò)展分?jǐn)?shù)研究炎癥性腸病全基因組關(guān)聯(lián)研究位點(diǎn)的基因,并揭示了具有強(qiáng)功能和遺傳支持的與炎癥性腸病相關(guān)的基因。
參考文獻(xiàn):
Barrio-Hernandez, I., Schwartzentruber, J., Shrivastava, A. et al. Network expansion of genetic associations defines a pleiotropy map of human cell biology. Nat Genet 55, 389–398 (2023). https://doi.org/10.1038/s41588-023-01327-9