美國(guó)Regeneron遺傳學(xué)中心Manuel A. Ferreira、Gon?alo R. Abecasis等研究人員合作完成對(duì)454,787名英國(guó)生物庫(kù)參與者的外顯子組測(cè)序和分析。該項(xiàng)研究成果于2021年10月18日在線發(fā)表在《自然》雜志上。人類遺傳學(xué)的一個(gè)主要目標(biāo)是利用自然變異來(lái)理解改變基因組中每個(gè)蛋白質(zhì)編碼基因的表型后果。在這里,研究人員使用外顯子組測(cè)序來(lái)探索英國(guó)生物庫(kù)研究中的454787名參與者的蛋白質(zhì)變異及其后果。
研究人員發(fā)現(xiàn)了1200萬(wàn)個(gè)編碼變異,包括大約100萬(wàn)個(gè)功能缺失和大約180萬(wàn)個(gè)有害的錯(cuò)義變異。當(dāng)這些基因與3994個(gè)與健康相關(guān)的性狀進(jìn)行關(guān)聯(lián)測(cè)試時(shí),研究人員發(fā)現(xiàn)有564個(gè)基因與性狀相關(guān)。在全基因組關(guān)聯(lián)研究(GWAS)中,罕見的變異關(guān)聯(lián)富集在位點(diǎn)上,但大多數(shù)(91%)獨(dú)立于常見的變異信號(hào)。研究人員發(fā)現(xiàn)了一些與肝病、眼病和癌癥相關(guān)的風(fēng)險(xiǎn)增加相關(guān)的特征,以及與高血壓(SLC9A3R2)、糖尿病(MAP3K15, FAM234A)和哮喘(SLC27A3)的風(fēng)險(xiǎn)降低相關(guān)的特征。6個(gè)基因與腦成像表型相關(guān),包括2個(gè)與神經(jīng)發(fā)育相關(guān)的基因(GBE1, PLD1)。在一個(gè)獨(dú)立隊(duì)列中,81%的可復(fù)制信號(hào)得到了確認(rèn);此外,在歐洲、亞洲和非洲血統(tǒng)的個(gè)體中,聯(lián)想信號(hào)通常是一致的。研究人員闡明了外顯子組測(cè)序識(shí)別基因性狀關(guān)聯(lián)的能力,闡明了基因功能和精確定位效應(yīng)基因,這在規(guī)模上是GWAS信號(hào)的基礎(chǔ)。
人類遺傳學(xué)的一個(gè)主要目標(biāo)是利用自然變異來(lái)理解基因組中每個(gè)蛋白質(zhì)編碼基因的后果。為了實(shí)現(xiàn)這一目標(biāo),英國(guó)生物庫(kù)(UKB)外顯子組測(cè)序協(xié)會(huì)對(duì)454787名UKB參與者的外顯子組進(jìn)行了測(cè)序,如前所述,95.8%的目標(biāo)堿基覆蓋深度在20或20以上。研究人員在18893個(gè)基因的編碼區(qū)域的3900萬(wàn)個(gè)堿基對(duì)中發(fā)現(xiàn)了1230萬(wàn)個(gè)變異(表1),其中99.6%是罕見變異(小等位基因頻率(MAF<所有血統(tǒng)的1%)。該目錄比TOPMed4和gnomAD5聯(lián)合數(shù)據(jù)集包含的編碼變異(950萬(wàn)常染色體變異)高出約1.3倍,比UKB通過(guò)填充(160萬(wàn)常染色體變異,信息得分 > 0.3);在被識(shí)別的變量中,有3,457,173(每個(gè)個(gè)體的中位數(shù)為10,273)同義,7,878,586(每個(gè)個(gè)體9,292)錯(cuò)義和915,289(每個(gè)個(gè)體214)推定功能喪失(pLOF)變量(表1),其中約一半在本數(shù)據(jù)集中只被觀察到一次(單變量;約23%(1,789,828)的錯(cuò)義變異被5種預(yù)測(cè)算法預(yù)測(cè)為有害的。這種獨(dú)特的編碼變異目錄,結(jié)合龐大的樣本量和數(shù)以千計(jì)的可用表型,為大規(guī)模評(píng)估基因功能提供了獨(dú)特的機(jī)會(huì)。
GWAS用于尋找與疾病或者特定性狀相關(guān)聯(lián)的SNP位點(diǎn),為了更加有效的挖掘信息,GWAS需要大樣本量和高密度的SNP分型結(jié)果,最佳的分型方案當(dāng)然是全基因組測(cè)序,然而成百上千個(gè)樣本的全基因組測(cè)序其成本依然是巨大的,目前更加經(jīng)濟(jì)有效的方案是GWAS芯片,針對(duì)特定人群,利用tag SNP的思想設(shè)計(jì)探針,覆蓋的SNP位點(diǎn)在幾十M的數(shù)量級(jí)。
相比全基因組測(cè)序,GWAS芯片確實(shí)更加經(jīng)濟(jì),但是其缺點(diǎn)也是顯而易見的,只能夠分析挖掘已知的SNP位點(diǎn),而且位點(diǎn)數(shù)據(jù)量相對(duì)較少,要知道一個(gè)全基因組測(cè)序分析得到的SNP位點(diǎn)在幾百M(fèi)左右。為了解決這個(gè)問(wèn)題,科學(xué)家提出了基因型填充的思想。
genotype imputation,稱之為基因型填充,基本思想是利用單倍型來(lái)推斷芯片未覆蓋到的SNP位點(diǎn)的分型結(jié)果,在家系數(shù)據(jù)和獨(dú)立樣本的分析中都適用。家系樣本基因型填充的過(guò)程示意
部分樣本具有較為完整的SNP分型結(jié)果,依據(jù)這些樣本的分型結(jié)果構(gòu)建在家系樣本中共享的單倍型,對(duì)應(yīng)圖中方框標(biāo)記的完整分型結(jié)果,針對(duì)基因型缺失的樣本,根據(jù)親緣關(guān)系推斷該樣本可能的單倍型,對(duì)于基因型缺失的位點(diǎn),直接使用對(duì)應(yīng)單倍型中的分型結(jié)果進(jìn)行填充。
獨(dú)立樣本的基因型填充過(guò)程示意如下
GWAS通常不能闡明基因功能本身,因?yàn)?/p>
大多數(shù)蛋白質(zhì)編碼變異不能通過(guò)填充獲得;
要確定與常見的非編碼變異相關(guān)的特定基因和機(jī)制并非易事。
為了闡明通過(guò)全外顯子組測(cè)序(WES)數(shù)據(jù)分析闡明基因功能的潛力,研究人員測(cè)試了罕見的pLOF和有害的誤感變異之間的關(guān)系,以及UKB研究中測(cè)量的3994個(gè)與健康相關(guān)的特征。這包括3702個(gè)二進(jìn)制特征(至少100個(gè)病例)和292個(gè)來(lái)自不同領(lǐng)域的定量特征,包括人體測(cè)量學(xué)。大約一半的性狀是不常見的,人群患病率在0.1%至1%之間。使用REGENIE中實(shí)施的全基因組回歸方法進(jìn)行關(guān)聯(lián)分析,該方法解釋了相關(guān)性,群體結(jié)構(gòu)和多基因性,并使用快速,近似Firth回歸方法的二元結(jié)果。通過(guò)對(duì)每個(gè)基因中改變蛋白質(zhì)的變異進(jìn)行分組的基因負(fù)擔(dān)測(cè)試,分別對(duì)變異進(jìn)行單獨(dú)和綜合測(cè)試。
研究人員首先分析了歐洲血統(tǒng)個(gè)體的WES數(shù)據(jù)(n = 430,998;大約95%的樣本大小),重點(diǎn)關(guān)注pLOF(包括停止增益、移碼、停止丟失、開始丟失和必要的剪接變異)和MAF高達(dá)1%的有害錯(cuò)義變異。研究人員測(cè)試了18,811個(gè)基因中每個(gè)性狀和個(gè)體變異之間的關(guān)聯(lián),以及每個(gè)基因變異的聚集,將pLOF或pLOF和有害的錯(cuò)義變異聯(lián)合考慮在內(nèi)??偟膩?lái)說(shuō),研究人員進(jìn)行了大約23億次關(guān)聯(lián)測(cè)試(補(bǔ)充表5),沒(méi)有證據(jù)表明種群結(jié)構(gòu)或未建模的相關(guān)性對(duì)結(jié)果有實(shí)質(zhì)性影響(補(bǔ)充圖3、4)。研究人員發(fā)現(xiàn)了8865個(gè)顯著關(guān)聯(lián),涉及564個(gè)基因。在P 2.18 10 11處,492個(gè)性狀和2,283個(gè)基因性狀對(duì),這對(duì)應(yīng)于多次檢驗(yàn)的Bonferroni校正(即P 0.05/ 23億檢驗(yàn);在這個(gè)閾值上,0.05的關(guān)聯(lián)信號(hào)在整個(gè)結(jié)果集上都是偶然出現(xiàn)的)。正如研究人員后來(lái)所顯示的,這些關(guān)聯(lián)中有8059個(gè)(91%)不能用與附近常見變異的連鎖不平衡(LD)來(lái)解釋,此外,81%的可用和可復(fù)制關(guān)聯(lián)在一個(gè)獨(dú)立但較小的隊(duì)列(n = 133,370個(gè)個(gè)體)中得到了證實(shí)。補(bǔ)充數(shù)據(jù)2提供了所有8865個(gè)關(guān)聯(lián),以及兩個(gè)非冗余集,它們是通過(guò)保留最重要的信號(hào)獲得的:
每個(gè)基因性狀對(duì)(2,283個(gè)信號(hào));
或者,在564個(gè)先導(dǎo)基因關(guān)聯(lián)中,415個(gè)是由于負(fù)擔(dān)信號(hào)(典型聚集的單核苷酸多態(tài)性(SNPs)和indel), 149個(gè)是由于單個(gè)罕見變異。在這149個(gè)基因中,20個(gè)與indel變異相關(guān),129個(gè)與單核苷酸變異(SNV)相關(guān)。fda批準(zhǔn)的藥物的基因靶標(biāo)在相關(guān)基因中是常見的3.6倍比其余基因更重要(18,317個(gè)中的345個(gè))。
發(fā)現(xiàn)的大量關(guān)聯(lián)為理解人類蛋白質(zhì)改變變異的表型后果和確定治療靶點(diǎn)提供了機(jī)會(huì)。由于不可能詳盡地描述所有的新基因關(guān)聯(lián),研究人員從四個(gè)廣泛的變異組中選擇了突出的例子:
(i)單例變異;
(ii)降低風(fēng)險(xiǎn)的變異;
(iii)在數(shù)量性狀上具有有利影響的變異
(iv)變異可能是體細(xì)胞起源的。
這些分組說(shuō)明了UKB外顯子組資源的價(jià)值,以及研究人員的數(shù)據(jù)對(duì)進(jìn)一步發(fā)現(xiàn)和分析的潛力。
研究人員首先關(guān)注在考慮單例變異負(fù)擔(dān)時(shí)發(fā)現(xiàn)的69個(gè)信號(hào),這代表了最罕見的變異類型,并且使用現(xiàn)有的參考面板仍然遠(yuǎn)遠(yuǎn)超出基因分型陣列和填充的范圍。將表型與基因中單細(xì)胞的負(fù)擔(dān)聯(lián)系起來(lái),是人類遺傳學(xué)中將基因與疾病聯(lián)系起來(lái)的最具說(shuō)服力的方法之一。這69個(gè)基因中的每一個(gè)平均與5.7個(gè)(大部分相關(guān))性狀相關(guān),總共有393個(gè)關(guān)聯(lián)。據(jù)研究人員所知,這69個(gè)基因關(guān)聯(lián)中有15個(gè)以前沒(méi)有描述過(guò),其中研究人員強(qiáng)調(diào)。首先,染色質(zhì)重塑器EP400中pLOF單例變異的攜帶者握力較低,與敲除小鼠的結(jié)果一致,敲除小鼠也表現(xiàn)出周圍神經(jīng)病變和嚴(yán)重的中樞神經(jīng)系統(tǒng)脫髓鞘。其次,編碼內(nèi)質(zhì)網(wǎng)膜蛋白的RRBP1的單例pLOF變異與載脂蛋白B的低水平相關(guān),以及低密度脂蛋白和總膽固醇水平的相似降低。與此一致的是,小鼠中Rrbp1的沉默改變了肝脂穩(wěn)態(tài),導(dǎo)致極低密度脂蛋白的生物生成減少。
對(duì)罕見變異進(jìn)行關(guān)聯(lián)分析的一個(gè)主要?jiǎng)恿κ氰b定功能缺失變異與較低疾病風(fēng)險(xiǎn)相關(guān)的基因,因?yàn)檫@些基因可能是阻斷抗體或其他抑制模式的有吸引力的目標(biāo)。然而,權(quán)力保護(hù)協(xié)會(huì)認(rèn)同罕見變異很低(擴(kuò)展數(shù)據(jù)圖2)。與此一致的是,我們發(fā)現(xiàn)只有五個(gè)基因與疾病的風(fēng)險(xiǎn)較低的結(jié)果在之前報(bào)道中:PCSK9、APOB、APOC3對(duì)高脂血癥的保護(hù)作用ABCG5和膽石病;IL33和過(guò)敏性疾病。
然而,值得注意的是,在閾值上觀察到另外11個(gè)保護(hù)性關(guān)聯(lián),包括6個(gè)先前報(bào)道的(涉及ANGPTL3、IFIH1、DBH、PDE3B、SLC22A12和ZNF229)和4個(gè)潛在的新基因。第一個(gè)是SLC9A3R2和高血壓風(fēng)險(xiǎn)較低,收縮壓也有很強(qiáng)的相關(guān)性,收縮和舒張壓作為數(shù)量性狀進(jìn)行分析,SBP關(guān)聯(lián)在discoverehr隊(duì)列中復(fù)制。SLC9A3R2編碼NHERF- 2,這是一個(gè)功能連接的腎臟表達(dá)的支架蛋白,通過(guò)與鈉/氫交換劑相互作用,在功能上連接到鈉吸收。與SLC9A3R2中低頻錯(cuò)義變異的關(guān)聯(lián)先前在血壓GWAS中被發(fā)現(xiàn),但該信號(hào)歸因于PKD1中附近的變異。研究人員發(fā)現(xiàn),SLC9A3R2中罕見的pLOF負(fù)擔(dān)和有害的錯(cuò)義變異,以及Arg171Trp,在PKD1中調(diào)節(jié)Arg2200Cys后,仍與收縮壓、舒張壓和高血壓高度相關(guān)。該信號(hào)與鈉平衡在調(diào)節(jié)血壓中的作用是一致的,表明阻斷SLC9A3R2可以為控制血壓提供一種手段。功能性和臨床研究評(píng)估這種可能性是有必要的。
第二個(gè)新的關(guān)聯(lián)是兒童哮喘風(fēng)險(xiǎn)的降低與SLC27A3中罕見pLOF和有害錯(cuò)義變異的負(fù)擔(dān)之間的聯(lián)系。首先,一種罕見的pLOF和有害的錯(cuò)義變異的負(fù)擔(dān)也與血液嗜酸性粒細(xì)胞計(jì)數(shù)降低相關(guān),是過(guò)敏性哮喘中具有關(guān)鍵效應(yīng)功能的細(xì)胞類型。其次,在discoverhr隊(duì)列中,哮喘和嗜酸性粒細(xì)胞計(jì)數(shù)具有一致的保護(hù)性關(guān)聯(lián)。SLC27A3編碼一種能激活長(zhǎng)鏈脂肪酸的?;o酶a合成酶,在動(dòng)脈、脂肪和肺組織中表達(dá)最高,在肺癌中表達(dá)上調(diào)。
第三個(gè)新的關(guān)聯(lián)是在PIEZO1中的錯(cuò)義變異和靜脈曲張風(fēng)險(xiǎn)降低。研究人員之前的研究表明,該基因中罕見的pLOFs會(huì)使下肢無(wú)癥狀靜脈曲張的風(fēng)險(xiǎn)增加4.9倍,這種關(guān)聯(lián)現(xiàn)在被估計(jì)為2倍,大約8倍的數(shù)據(jù)。OR = 0.66,,提示該錯(cuò)義變異可能具有功能獲得效應(yīng)。這一點(diǎn)很重要,因?yàn)樗砻鳎琍IEZO1可能為一種沒(méi)有可用藥物干預(yù)的常見疾病提供治療途徑。
最后,第四個(gè)新的關(guān)聯(lián)是MAP3K15和對(duì)2型糖尿病的保護(hù)之間的關(guān)系,下面將更詳細(xì)地討論。在這四種新的保護(hù)關(guān)聯(lián)中,只有兩種(SLC9A3R2和PIEZO1)在P?<?10?7 分析TOPMed輸入數(shù)據(jù)。
與疾病性狀相關(guān)的保護(hù)性關(guān)聯(lián)的低產(chǎn)量與與疾病相關(guān)的數(shù)量性狀(如體重指數(shù))的觀測(cè)結(jié)果形成對(duì)比,后者通常為遺傳研究提供更大的動(dòng)力。具體來(lái)說(shuō),研究人員發(fā)現(xiàn)了131個(gè)基因,它們對(duì)數(shù)量性狀的影響方向與對(duì)疾病風(fēng)險(xiǎn)的有益影響一致。例如,研究人員在ASGR1中發(fā)現(xiàn)了與較低載脂蛋白B水平相關(guān)的低頻蛋白改變變異。ASGR1單倍不足曾被報(bào)道可降低心血管疾病的風(fēng)險(xiǎn),這一觀察結(jié)果支持了抗ASGR1單克隆抗體作為降脂治療藥物的臨床開發(fā)。
作為另一個(gè)例子,研究人員發(fā)現(xiàn)較低的血清葡萄糖水平與FAM234A,與常見變異無(wú)關(guān)。值得注意的是,F(xiàn)AM234A中一個(gè)常見的內(nèi)含子變異與2型糖尿病的低風(fēng)險(xiǎn)相關(guān),并與一個(gè)調(diào)節(jié)型變異共定位,在多個(gè)組織中降低FAM234A的表達(dá)。與此一致的是,研究人員發(fā)現(xiàn)FAM234A中罕見的pLOFs與自我報(bào)告的糖尿病風(fēng)險(xiǎn)降低36%相關(guān)??偟膩?lái)說(shuō),罕見和常見變異的結(jié)果都涉及FAM234A,一種功能未知的基因,在糖尿病的病因中。
然后,研究人員確定是否有其他基因的例子,既對(duì)數(shù)量性狀有利,又與相關(guān)疾病具有保護(hù)性(即使低于閾值)聯(lián)系,就像在FAM234A中觀察到的那樣。為此,研究人員對(duì)131個(gè)數(shù)量性狀的關(guān)聯(lián)信號(hào)進(jìn)行了遺傳相關(guān)(rg)估計(jì),然后選擇rg最顯著的疾病。如果有的話,研究人員只考慮在多次檢測(cè)校正后rg顯著的疾病。例如,嗜酸性粒細(xì)胞計(jì)數(shù)與哮喘匹配(rg = 0.37),眼壓與青光眼匹配(rg = 0.66);總的來(lái)說(shuō),研究人員發(fā)現(xiàn)129種性狀關(guān)聯(lián)的匹配疾病。使用這種方法,研究人員發(fā)現(xiàn)有13個(gè)基因與一種與基因相關(guān)的疾病有保護(hù)性關(guān)聯(lián),經(jīng)過(guò)多次測(cè)試校正后,這種關(guān)聯(lián)顯著; 在這些研究中,研究人員強(qiáng)調(diào)了MAP3K15中蛋白質(zhì)改變變異的負(fù)擔(dān)與血紅蛋白A1c較低水平之間的聯(lián)系,降低血糖和對(duì)2型糖尿病的保護(hù)。此外,在discoverehr隊(duì)列中有支持所有三種表型的證據(jù):A1c,葡萄糖和2型糖尿病。MAP3K15編碼一種廣泛表達(dá)的、參與凋亡細(xì)胞死亡的絲裂原活化蛋白激酶20,據(jù)研究人員所知,該蛋白激酶在2型糖尿病中未被發(fā)現(xiàn)。
在492個(gè)性狀中,至少有1個(gè)顯著的罕見變異關(guān)聯(lián),其中20個(gè)值得注意,因?yàn)樗鼈兩婕?個(gè)或更多的基因具有罕見變異信號(hào),但沒(méi)有來(lái)自GWAS的常見變異信號(hào)。值得注意的是,這20個(gè)性狀中有7個(gè)是髓系白血病,膿毒癥(4個(gè)基因)和5個(gè)額外的血液相關(guān)性狀,大多數(shù)相關(guān)基因先前涉及不確定潛力的克隆造血。這些CHIP基因的相關(guān)變異與年齡密切相關(guān),推測(cè)雜合子中支持該變異的reads比例通常小于35%或大于65%。與這些關(guān)聯(lián)一致,是通過(guò)血液源DNA的外顯子測(cè)序確定的體細(xì)胞突變驅(qū)動(dòng)的。
研究人員接下來(lái)調(diào)查了在歐洲群體中確定的關(guān)聯(lián)在其他祖先中共享的程度。為此,研究人員使用來(lái)自UKB隊(duì)列的10348名南亞人(SAS)、9089名非洲人(AFR)和2217名東亞人(EAS)的WES數(shù)據(jù)進(jìn)行了關(guān)聯(lián)分析。當(dāng)研究人員關(guān)注564個(gè)非冗余關(guān)聯(lián)(即每個(gè)基因最強(qiáng)的關(guān)聯(lián),484個(gè)與數(shù)量性狀相關(guān),80個(gè)與二元性狀相關(guān)),研究人員發(fā)現(xiàn)數(shù)量性狀的大部分關(guān)聯(lián)在祖先之間是共享的,但二進(jìn)制性狀的關(guān)聯(lián)較少,這可能是由于低權(quán)。對(duì)于數(shù)量性狀,在SAS個(gè)體中,83%的關(guān)聯(lián)在AFR個(gè)體中,73%的關(guān)聯(lián)在EAS祖先個(gè)體中,74%的關(guān)聯(lián)在方向上是一致的,當(dāng)考慮與 P?≤?0.05的關(guān)聯(lián)時(shí),增加到92%以上。對(duì)于二元性狀,在SAS中有61%的關(guān)聯(lián),在AFR中有61%的關(guān)聯(lián),在EAS中有64%的關(guān)聯(lián)觀察到一致效應(yīng)。當(dāng)考慮到全部8865個(gè)關(guān)聯(lián)時(shí),研究人員觀察到了類似的模式。然后研究人員詢問(wèn)是否在非歐洲祖先中發(fā)現(xiàn)了任何新的關(guān)聯(lián),并發(fā)現(xiàn)了4個(gè)在歐洲唯一的分析中沒(méi)有發(fā)現(xiàn)的基因(G6PD, HBQ1, OR51V1和RGS11)。
我們?cè)噲D使用來(lái)自Geisinger discoverehr隊(duì)列22 (n = 133,370個(gè)歐洲血統(tǒng)個(gè)體)的外顯子組測(cè)序數(shù)據(jù)來(lái)復(fù)制相關(guān)性。如上所述,為了便于解釋結(jié)果,我們重點(diǎn)研究了在UKB隊(duì)列中發(fā)現(xiàn)的歐洲血統(tǒng)個(gè)體的564個(gè)基因性狀關(guān)聯(lián)的非冗余集合,并確定是否可以在DiscovEHR中識(shí)別出匹配的性狀。在我們?cè)噲D復(fù)制的279種基因性狀關(guān)聯(lián)中,193種(69%;二元性狀有28個(gè),數(shù)量性狀有165個(gè))在名義上顯著(p≤?0.05),在方向上也一致,而隨機(jī)預(yù)期約有7個(gè)(279 0.05 0.5)。當(dāng)只考慮212個(gè)具有至少80%復(fù)制能力的基因性狀的子集時(shí),復(fù)制率為81%(212的172個(gè))。補(bǔ)充數(shù)據(jù)2提供了在discoverhr中可用的所有關(guān)聯(lián)的復(fù)制結(jié)果(8,865個(gè)關(guān)聯(lián)中的4,083個(gè)),其中70%在名義上是顯著的,并且在方向上是一致的。
如上所述,將表型與基因中罕見編碼變異的負(fù)擔(dān)聯(lián)系起來(lái),是人類遺傳學(xué)將基因與疾病聯(lián)系起來(lái)的一種令人信服的方式。正如研究人員在補(bǔ)充說(shuō)明中所顯示的,當(dāng)更詳細(xì)地剖析負(fù)擔(dān)相關(guān)性時(shí),研究人員發(fā)現(xiàn):
在單變量分析中,大多數(shù)(77%的7,449)關(guān)聯(lián)不能被檢測(cè)到,這表明它們通常被多個(gè)變量支持;
將MAF高達(dá)1%的變量聚集在一起的負(fù)擔(dān)測(cè)試發(fā)現(xiàn)了更多數(shù)量的總體顯著關(guān)聯(lián),但在排除MAF在0.1%和1%之間的變量后,其中大多數(shù)仍然顯著,表明更大的產(chǎn)量可能是由在一個(gè)單一測(cè)試中捕獲跨越廣泛等位基因頻率的關(guān)聯(lián)信號(hào)的能力來(lái)解釋的;
在同一測(cè)試中,結(jié)合pLOFs和有害的錯(cuò)義變異在更允許的MAF閾值時(shí)逐漸變得更有價(jià)值。這些結(jié)果證明了執(zhí)行各種負(fù)擔(dān)測(cè)試發(fā)現(xiàn)遺傳關(guān)聯(lián)的效用。
復(fù)雜性狀遺傳關(guān)聯(lián)研究的一個(gè)主要挑戰(zhàn)是通過(guò)GWAS確定的數(shù)千個(gè)位點(diǎn)的效應(yīng)基因。為了解決罕見變異關(guān)聯(lián)可能有助于定位效應(yīng)基因的可能性,研究人員對(duì)492個(gè)具有罕見變異關(guān)聯(lián)的性狀進(jìn)行了GWAS,并確定了共107,276個(gè)與常見變異(以下簡(jiǎn)稱GWAS哨兵變異)的獨(dú)立關(guān)聯(lián)。正如補(bǔ)充說(shuō)明中更詳細(xì)的描述,通過(guò)結(jié)合GWAS和WES數(shù)據(jù)的結(jié)果,研究人員發(fā)現(xiàn):
在同一性狀中,罕見變異關(guān)聯(lián)通常在GWAS哨兵變異的1 Mb以內(nèi)(8,865,74%);
當(dāng)研究人員使用GWAS常見變異信號(hào)時(shí),大多數(shù)罕見變異關(guān)聯(lián)仍然顯著;
顯著的罕見變異關(guān)聯(lián)(調(diào)節(jié)GWAS信號(hào)后)為11.4倍,更常見的基因位于1 Mb的GWAS高峰,當(dāng)研究人員只關(guān)注基因最近GWAS哨兵變異濃縮達(dá)到59.4倍(圖1)。
這些結(jié)果顯示強(qiáng)勁的常見變異重疊信號(hào)從GWAS和罕見的變異信號(hào)exome-wide研究,這表明,罕見的變異負(fù)擔(dān)信號(hào)將識(shí)別數(shù)千個(gè)GWAS位點(diǎn)的效應(yīng)基因。
為了說(shuō)明上述發(fā)現(xiàn)的相關(guān)性,研究人員突出顯示了168個(gè)基因,它們?cè)谧罱咏麲WAS哨兵變異體的基因中觀察到顯著的罕見變異體關(guān)聯(lián)。這表明這些很可能是GWAS信號(hào)的效應(yīng)基因。作為一個(gè)例子,研究人員發(fā)現(xiàn)GWAS信號(hào)血清水平的維生素D, 其中5罕見的負(fù)擔(dān)蛋白修改變異基因的最近的GWAS峰值也與維生素D水平。其中,研究人員強(qiáng)調(diào)了與HAL的聯(lián)系,據(jù)研究人員所知,這是以前沒(méi)有報(bào)道過(guò)的。維生素D合成的第一步是在皮膚中進(jìn)行的,需要紫外線的照射。HAL很可能在這一步驟中發(fā)揮作用,因?yàn)樗幋a一種酶,將組氨酸轉(zhuǎn)化為反尿酸,反尿酸是一種主要的吸收紫外線的發(fā)色團(tuán),聚集在角質(zhì)層中。因此,HAL的失活預(yù)計(jì)會(huì)降低表皮最外層阻擋紫外線的能力。與這種可能性一致,研究人員發(fā)現(xiàn)HAL中罕見的pLOF和有害的錯(cuò)義變異的負(fù)擔(dān)與更高水平的維生素D、更容易皮膚曬黑和更高的光化性角化病和非黑色素瘤皮膚癌的風(fēng)險(xiǎn)相關(guān)。這些發(fā)現(xiàn)得到了性狀降低與一個(gè)共同變異的關(guān)聯(lián)的支持,該變異與一個(gè)表達(dá)數(shù)量性狀位點(diǎn)共定位,該位點(diǎn)增加了皮膚組織中HAL的表達(dá)。這些結(jié)果涉及維生素D水平和皮膚癌的HAL,并強(qiáng)調(diào)了一個(gè)等位基因系列,包括罕見的功能喪失的蛋白質(zhì)改變變異(性狀增加)和常見的表達(dá)增加的非編碼變異(性狀降低)。
目前,UKB的大腦成像部分包括來(lái)自36,968個(gè)人的磁共振成像(MRI)的2077種表型。研究人員分別分析了這些數(shù)據(jù),給出了大量的性狀和相對(duì)較小的樣品量,測(cè)試了與上述GWAS信號(hào)條件下的罕見變異的關(guān)聯(lián)。研究人員發(fā)現(xiàn)6個(gè)基因有84個(gè)關(guān)聯(lián):AMPD3、GBE1、PLD1、PLEKHG3、STAB1和TF。在這些研究中,研究人員強(qiáng)調(diào)了彌漫性腦區(qū)域的低灰質(zhì)白質(zhì)對(duì)比(GWC)測(cè)量與PLD1中有害的錯(cuò)義變異,一種能催化磷脂酰膽堿水解為磷脂酸和膽堿的酶,已被證明在突觸形成中有作用。GWC是一種模糊灰質(zhì)和白質(zhì)腦區(qū)界限的測(cè)量方法,被認(rèn)為是組織完整性和髓磷脂降解的局部變化的指標(biāo),白質(zhì)中的水分含量增加,或鐵沉積。較低的GWC與衰老和較低的認(rèn)知指標(biāo)有關(guān),同時(shí)也與輕度認(rèn)知障礙向癡呆轉(zhuǎn)化的比率增加有關(guān)。與這一發(fā)現(xiàn)相關(guān),在附加的46個(gè)與腦成像表型相關(guān)的閾下基因中,4個(gè)基因?qū)WC有較大的性狀降低作用,其中2個(gè)基因在髓磷脂的形成和維持中有明確的作用,這與破壞這些基因功能的變異與低GWC之間的關(guān)聯(lián)一致。相反,在ST6GALNAC5,該基因可催化GM1b在大腦中生物合成神經(jīng)節(jié)苷脂。這與目前的證據(jù)相一致,即大腦中特定神經(jīng)節(jié)苷脂的相對(duì)豐度會(huì)隨著年齡和常見的神經(jīng)狀況而改變。研究人員在補(bǔ)充說(shuō)明中討論了與其他基因(GBE1、PLEKHG3、STAB1和TF)的顯著相關(guān)性。
在研究人員評(píng)估從UKB參與者3中測(cè)序的前49960個(gè)外顯子時(shí),當(dāng)考慮所有50萬(wàn)研究參與者的外顯子數(shù)據(jù)時(shí),研究人員使用了β -二項(xiàng)模型來(lái)預(yù)測(cè)包含雜合子pLOF變異的基因數(shù)量。在目前的樣品量中,觀察到的和預(yù)測(cè)的數(shù)量非常吻合。以研究人員當(dāng)前的數(shù)據(jù)集為基線(包括所有祖先),當(dāng)外顯子組序列數(shù)據(jù)可用時(shí),研究人員擴(kuò)展了研究人員的預(yù)測(cè),以估計(jì)包含罕見pLOFs (MAF 1%)的基因數(shù)量:研究人員預(yù)測(cè),18035、17853和8376個(gè)基因?qū)⒎謩e產(chǎn)生至少50、100和500個(gè)雜合pLOF攜帶者。同樣,研究人員預(yù)測(cè),當(dāng)考慮到500萬(wàn)個(gè)測(cè)序個(gè)體時(shí),2630個(gè)、997個(gè)和529個(gè)基因?qū)⒎謩e有至少10個(gè)、50個(gè)和100個(gè)純合pLOF攜帶者。UKB隊(duì)列主要由歐洲血統(tǒng)的個(gè)體組成,因此一個(gè)重要的問(wèn)題是,這些預(yù)測(cè)是否也適用于祖先更多樣化的人群。為了解決這一問(wèn)題,研究人員預(yù)測(cè)了pLOF攜帶者的數(shù)量,預(yù)計(jì)在500萬(wàn)個(gè)人中(i) 46000個(gè)來(lái)自英國(guó)UKB的歐洲血統(tǒng)的人;(ii) 46000名英國(guó)人,包括23000名歐洲血統(tǒng)和23000名其他血統(tǒng)的人(10,000名南亞人、9,000名非洲人、2,000名東亞人、1,000名西班牙裔或拉丁美洲人以及1,000名混合血統(tǒng)的人)。研究人員發(fā)現(xiàn),基于更多樣化的樣本集的預(yù)測(cè)略高于僅來(lái)自歐洲數(shù)據(jù)集的估計(jì)。
參考文獻(xiàn)
Backman, J.D., Li, A.H., Marcketta, A. et al. Exome sequencing and analysis of 454,787 UK Biobank participants. Nature 599, 628–634 (2021). https://doi.org/10.1038/s41586-021-04103-z
在未來(lái)的幾年里,研究人員希望所有UKB參與者都能獲得全基因組序列數(shù)據(jù),從而能夠?qū)?duì)罕見變異的分析擴(kuò)展到基因組的其余部分。研究人員的數(shù)據(jù)可以對(duì)即將到來(lái)的基因型推斷資源的價(jià)值進(jìn)行早期評(píng)估,基因型推斷是一種廣泛使用的策略,用于增加基于陣列的關(guān)聯(lián)研究的能力、完整性和可解釋性。