全基因組范圍內(nèi)的基因-基因互作研究
今天給大家分享一篇2022年4月30日發(fā)表在國(guó)際肺癌研究協(xié)會(huì)(IASLC)官方期刊Journal of Thoracic Oncology (IF=20.121) 雜志上的文章。這篇文章進(jìn)行了歐洲人肺癌易感性的大規(guī)模全基因組基因-基因相互作用研究,并在亞洲人中進(jìn)行跨種族驗(yàn)證。
一 研究背景
肺癌是我國(guó)及全球惡性腫瘤的主要死因。除環(huán)境暴露(如吸煙)外,單核苷酸多態(tài)性(SNP)亦是公認(rèn)的影響肺癌易感性的重要遺傳因素之一。近20年來,盡管全基因組關(guān)聯(lián)研究(GWAS)已經(jīng)取得重要進(jìn)展,但是所鑒定的SNP仍然對(duì)肺癌遺傳度(heritability)的解釋力有限。肺癌屬于復(fù)雜疾病。復(fù)雜疾病的發(fā)生、發(fā)展受到復(fù)雜關(guān)聯(lián)模式的驅(qū)動(dòng),如基因-環(huán)境、基因-基因交互作用等。盡管已經(jīng)進(jìn)行了全基因組關(guān)聯(lián)研究來研究肺部腫瘤發(fā)生的遺傳變異,但對(duì)可能影響非小細(xì)胞肺癌(NSCLC)風(fēng)險(xiǎn)的基因-基因(G x G)的相互作用知之甚少。
本研究中(圖1),作者利用來自國(guó)際肺癌聯(lián)盟OncoArray項(xiàng)目、肺癌跨學(xué)科研究和英國(guó)生物庫的445,221名歐洲裔參與者,對(duì)歐洲NSCLC的風(fēng)險(xiǎn)進(jìn)行了大規(guī)模的全基因組的G x G相互作用研究。首先,使用BiForce對(duì)340,958個(gè)單核苷酸多態(tài)性(SNPs)中超過580億個(gè)G x G互作。然后,通過演示圖形調(diào)整的邏輯回歸模型進(jìn)一步測(cè)試頂級(jí)相互作用。最后,利用所選的相互作用建立了NSCLC的肺癌篩查模型,分別針對(duì)從未吸煙者和曾經(jīng)吸煙者。經(jīng)Bonferroni校正,作者確定了8對(duì)具有統(tǒng)計(jì)學(xué)意義的SNPs,它們主要出現(xiàn)在6p21.32和5p15.33區(qū)域(例如,rs521828 C6orf10和rs204999 PRRT1;rs3135369 BTNL2和rs2858859 HLA-DQA1;rs2858859 HLA-DQA1和rs9275572 HLA-DQA2;rs2853668 TERT和rs62329694 CLPTM1L ). 值得注意的是,即使各民族之間存在很多遺傳異質(zhì)性,在6p21.32區(qū)域的三對(duì)SNPs也是如此。重要的G x G互作在5p15.33和6p21.32區(qū)域被發(fā)現(xiàn)并富集,這可能增強(qiáng)肺癌篩查模型。
二 主要結(jié)果
歐洲兩階段研究發(fā)現(xiàn)的兩種顯著的G x G相互作用
表1列出了ILCCO-OncoArray(15157例和13196例對(duì)照)、TRICL(3288例和3965例對(duì)照)和UK Biobank(3017例和406598例對(duì)照)的NSCLC病例和對(duì)照的特征。在發(fā)現(xiàn)階段,作者觀察到兩對(duì)SNPs(rs521828,位于6p21.32的C6orf10的內(nèi)含子,和rs204999,位于6p21.32的PRRT1的6.2 kb 3’;rs2853668,位于5p15.33的TERT的4.8 kb 和rs62329694,位于5p15.33的CLPTM1L的內(nèi)含子)。在驗(yàn)證階段,作者通過使用來自英國(guó)生物庫的獨(dú)立參與者證實(shí)了這兩個(gè)G x G信號(hào)的顯著性(rs521828 and rs204999: OR interaction= 1.09, 95% CI:1.00–1.18, p=0.044; rs2853668 and rs62329694: OR interaction = 0.83, 95% CI: 0.69–0.98, p =0.034)。
為了更好地了解rs521828和rs204999之間的相互作用,作者還使用所有三個(gè)隊(duì)列聯(lián)合評(píng)估了rs204999分層的NSCLC風(fēng)險(xiǎn)與rs521828的相關(guān)性。rs521828等位基因與攜帶rs204999野生基因型(OR 0.86, 95% CI: 0.80 0.92);在攜帶AG雜合基因型rs204999的人群中,這種效應(yīng)被逆轉(zhuǎn)(OR 1.09, 95% CI: 1.01 1.17),且GG基因型為rs204999的基因型對(duì)其影響更大(OR 1.23, 95% CI: 1.06 1.43)。由此可見,rs204999修飾了rss521828對(duì)NSCLC的作用,說明兩者之間存在相互作用。通過一系列分層分析進(jìn)一步研究了這種模式(圖2A)。在rs2853668和rs62329694之間也觀察到了類似的模式。G等位基因rs2853668與較高的攜帶rs62329694基因GG型的NSCLC受試者幾率相關(guān)(OR 1.30, 95% CI: 1.14 1.49)。但在攜帶rs2853668基因型GA和AA的受試者中,這種效應(yīng)被逆轉(zhuǎn)(OR 0.87, 95% CI: 0.78 0.99) (OR 0.75, 95% CI: 0.59 0.99)。敏感度分析證實(shí)了該模式(圖2B)。針對(duì)ILCCO數(shù)據(jù),研究人員進(jìn)一步對(duì)6p21.32和5p15.33區(qū)域進(jìn)行填補(bǔ)分析。如圖2C和2D所示,兩個(gè)區(qū)域存在成簇基因-基因交互作用信號(hào)。利用logistic回歸模型進(jìn)一步檢驗(yàn)了顯著上位性對(duì)約500 KB側(cè)翼區(qū)域內(nèi)的所有SNP,發(fā)現(xiàn)了G x G信號(hào)在接近識(shí)別對(duì)的地方富集(圖2C和D)
在歐洲人中通過meta分析確定的六種更重要的G x G交互作用
研究人員在本次歐美人群交互作用研究中鑒定出8對(duì)信號(hào),在既往亞洲人群(NJMU-GSA)中鑒定出1對(duì)信號(hào)(2p32.2區(qū)域)??绶N族驗(yàn)證分析顯示:肺癌基因-基因交互作用在不同種族間既有共同性,又有異質(zhì)性。 從不同亞群的meta分析中得出Pinteraction小于5×10-8的 G × G信號(hào)。在不同亞群中,共有8對(duì)SNPs達(dá)到Bonferroni校正的閾值(p < 8.60 × 10-13)(表2)。其中,有兩對(duì)SNPs與兩階段研究發(fā)現(xiàn)的SNPs相同。此外,在新檢測(cè)到的6個(gè)G×G相互作用中,有4對(duì)出現(xiàn)在6p21.32區(qū)域,包括rs3135369和rs9271300、rs3135369和rs2858859、rs2858859和rs9275572、rs2858859和rs9275596。由于rs9271300和rs2858859(r2=0.66,D'=0.996)以及rs9275596和rs9275572(r2=0.72,D'=0.998)之間存在中等程度的連鎖不平衡(LD),這四個(gè)G × G信號(hào)可能是以下三個(gè)SNP的結(jié)果:rs3135369、rs2858859和rs9275572。6p21.32區(qū)域的所有其他SNPs都是相對(duì)獨(dú)立的,不管是LD-r2還是D'統(tǒng)計(jì)數(shù)字。其他兩對(duì)SNPs居住在不同的區(qū)域,包括8p23.3的rs28591443和6p25.2的rs9265981,1q32.2的rs589027,以及2p24.2的rs713395。
靈敏度分析
作者進(jìn)一步進(jìn)行了敏感性分析來評(píng)估這八個(gè)G × G的相互作用。(1) 通過在邏輯回歸模型中不包括任何其他協(xié)變量來評(píng)估這8個(gè)G × G信號(hào)的未經(jīng)調(diào)整的影響,發(fā)現(xiàn)所有G × G相互作用在不同的亞群中仍然達(dá)到p小于5×10-7的顯著性水平。(2) 為了說明英國(guó)生物庫人群中病例和對(duì)照不平衡引起的I型錯(cuò)誤膨脹,作者在驗(yàn)證階段應(yīng)用SAIGE(0.44.6.5版)重新確認(rèn)這8個(gè)信號(hào)。SAIGE使用鞍點(diǎn)近似法來考慮病例-對(duì)照的不平衡,可以有效地分析大樣本數(shù)據(jù),控制病例-對(duì)照的不平衡和樣本的相關(guān)性。除了一對(duì)(rs521828和rs204999)稍有意義(p=0.056)外,所有的G × G相互作用都保持名義上的意義。這些通過敏感性分析的結(jié)果表明,八個(gè)G × G相互作用的穩(wěn)健性令人滿意。
在亞洲和歐洲人間成功的跨種族驗(yàn)證顯著的G x G相互作用
首先,作者通過使用來自NJMU-GSA的外部亞洲人群,評(píng)估了從歐洲血統(tǒng)人群中發(fā)現(xiàn)的8個(gè)G × G相互作用。能夠在6p21.32區(qū)域的幾個(gè)亞種群中驗(yàn)證三對(duì)SNPs。它們包括NSCLC中的rs521828和rs204999,NSCLC中的rs3135369和rs9271300和吸煙者,以及NSCLC中的rs3135369和rs2858859。其他配對(duì)沒有明顯的結(jié)果,可能是由于這兩個(gè)民族人群之間SNP的效應(yīng)等位基因頻率不同(圖3)。
具有G x G相互作用的SNP可能參與生物調(diào)控功能
在RegulomeDB數(shù)據(jù)庫中,觀察到13個(gè)SNP中的10個(gè)具有豐富的生物調(diào)節(jié)功能,包括eQTL、轉(zhuǎn)錄因子結(jié)合位點(diǎn)或DNase峰。觀察到SNPs有許多增強(qiáng)子組蛋白標(biāo)記和圖案的變化。在使用肺組織的GTEx數(shù)據(jù)庫進(jìn)行的eQTL分析中,6p21.32和6p25.2的所有8個(gè)SNPs都發(fā)現(xiàn)了人類白細(xì)胞抗原(HLA)區(qū)域的豐富調(diào)控關(guān)系,而其他的則沒有發(fā)現(xiàn)明顯的eQTLs。此外,作者用GEO資料庫進(jìn)行了差異表達(dá)分析。對(duì)于兩期研究中發(fā)現(xiàn)的三個(gè)基因(C6orf10、CLPTM1L和TERT),其表達(dá)水平在腫瘤組織中明顯上調(diào)。此外,Meta分析中發(fā)現(xiàn)的BTNL2也在肺癌腫瘤和正常組織中存在明顯的差異表達(dá)。通過LUAD-和LUSC-TCGA數(shù)據(jù)庫對(duì)這10個(gè)基因在腫瘤組織中的腫瘤突變負(fù)擔(dān)分析,在下一代測(cè)序的體細(xì)胞突變的基礎(chǔ)上,作者發(fā)現(xiàn)有三個(gè)基因,特別是TERT、CLPTM1L和CSMD1,在腫瘤細(xì)胞中呈現(xiàn)高比例的體細(xì)胞突變。這些發(fā)現(xiàn)可能會(huì)給肺癌的新型靶向治療帶來啟發(fā)。
G x G交互評(píng)分在英國(guó)生物樣本庫中有效地區(qū)分高危人群
作者在從不吸煙者和曾經(jīng)吸煙者中建立了肺癌篩查模型,因?yàn)樗麄兊倪z傳背景有很大的不同。對(duì)于每個(gè)亞組來說,考慮進(jìn)行風(fēng)險(xiǎn)篩查的是以下內(nèi)容。(1) PRS包括128個(gè)SNPs,這些SNPs對(duì)歐洲人的GWAS有明顯的邊際效應(yīng);(2) G × G相互作用的得分(表2),通過對(duì)三個(gè)數(shù)據(jù)集的Meta分析,其中P小于0.05;(3) groupLASSO使用ILCO-OncoArray(訓(xùn)練集)選擇的G×G相互作用的得分。iPRS(interaction-empowered polygenetic risk score)具有顯著的分層性能,同時(shí)作者通過ILCCO-OncoArray中的得分的十分位數(shù)將受試者分為10組。
iPRS在162,316名從未吸煙的人和245,998名曾經(jīng)吸煙的人中進(jìn)行了外部驗(yàn)證,這些人有來自英國(guó)生物庫的肺癌隨訪時(shí)間。隨訪時(shí)間的中位數(shù)為9.45年,其四分位數(shù)范圍為8.48至10.52年。每個(gè)受試者都有一個(gè)iPRS分?jǐn)?shù),所有受試者按分?jǐn)?shù)的十分位數(shù)被分為10個(gè)組。高風(fēng)險(xiǎn)組(前10%)的受試者患肺癌的風(fēng)險(xiǎn)明顯高于低風(fēng)險(xiǎn)組(后10%)的受試者,從未吸煙者的危險(xiǎn)比(HR)相當(dāng)于5.31(95% CI: 3.11-9.07, p = 8.60 × 10-10, 圖4A),曾經(jīng)吸煙者的HR相當(dāng)于6.21(95% CI: 5.01-7.70, p < 2.2 × 10-16, 圖4B)。與PRS相比[前10%與后10%相比。從不吸煙者的HR=1.72(95%CI:1.09-2.72);曾經(jīng)吸煙者的HR=1.80(95%CI:1.49-2.15)],發(fā)現(xiàn)iPRS有更好的分辨能力。同時(shí),作者驗(yàn)證了由人口統(tǒng)計(jì)學(xué)變量(年齡、性別和吸煙包年數(shù))和iPRS組成的肺癌篩查模型,其中SNP的權(quán)重被保留在訓(xùn)練集中。累積肺癌風(fēng)險(xiǎn)曲線在按總風(fēng)險(xiǎn)分?jǐn)?shù)的五分位數(shù)分類的五個(gè)組別之間有明顯的區(qū)別(P<0.001),表明iPRS增強(qiáng)模型是一個(gè)良好的風(fēng)險(xiǎn)分類器(圖4C和D)。
年齡和吸煙包年是兩個(gè)公認(rèn)的因素,用于定義肺癌低劑量計(jì)算機(jī)斷層掃描(LDCT)篩查的高風(fēng)險(xiǎn)人群。因此,作者說明了按iPRS、年齡和吸煙包年分類的各種亞人群的肺癌絕對(duì)發(fā)病率(圖4E)。在臨床上,iPRS增強(qiáng)模型可能會(huì)改變肺癌篩查的做法。例如,年齡小于55歲或吸煙少于30包年的受試者(包括從不吸煙者),但iPRS較高,可建議作為肺癌篩查的高危人群;對(duì)于iPRS較高(前20%)且吸煙超過60包年的人,肺癌篩查最好從50歲開始;而對(duì)于iPRS較低的人,可推遲篩查(圖4E)。表明iPRS能提高經(jīng)典肺癌風(fēng)險(xiǎn)模型的篩查能力。
基因變異在生物通路中顯著富集
為了從生物學(xué)上理解篩選模型中映射到外顯SNP的基因,作者用KEGG數(shù)據(jù)庫分別對(duì)曾經(jīng)和從未吸煙者進(jìn)行了基因富集途徑分析。在從未吸煙的人中,總共有16條途徑是顯著的,如細(xì)胞粘附分子和異體移植排斥。對(duì)于曾經(jīng)吸煙的人來說,有22條路徑被確定,包括眾所周知的路徑,如TH1和TH2細(xì)胞分化、Notch信號(hào)通路和利什曼病,表明更多的生物路徑參與到吸煙行為導(dǎo)致的腫瘤發(fā)生中。
三 總結(jié)
本次研究完成了全球最大規(guī)模(46.5萬人)的肺癌基因-基因交互作用研究與跨種族人群驗(yàn)證,并構(gòu)建了交互作用賦能的遺傳評(píng)分(interaction empowered polygenetic risk score, iPRS)。不僅是全球規(guī)模最大的肺癌基因-基因交互作用研究,也是首個(gè)歐美人群全基因組基因-基因交互作用研究和跨種族驗(yàn)證研究,具有重要意義。
參考文獻(xiàn)
Zhang, R., et al., A Large-Scale Genome-Wide Gene-Gene Interaction Study of Lung Cancer Susceptibility in Europeans With a Trans-Ethnic Validation in Asians. J Thorac Oncol, 2022.