輕松上5分!——連接表型和基因型的橋梁“孟德爾隨機(jī)化”
孟德爾隨機(jī)化分析簡介
醫(yī)學(xué)研究中,因果關(guān)聯(lián)推斷旨在對可控的暴露因素與結(jié)局之間的因果關(guān)系進(jìn)行估計(jì)與評價(jià),從而通過控制或干預(yù)暴露因素的水平改變相應(yīng)結(jié)局。例如特定暴露對于人群發(fā)病的影響效應(yīng)分析、特定藥物或手術(shù)方式作用于疾病的療效評估等。基于因果效應(yīng)的分析與評價(jià),對于確定疾病病因及干預(yù)方式、控制疾病進(jìn)展或預(yù)后等方面均具有重要的指導(dǎo)意義.
孟德爾隨機(jī)化(MR)是基于全基因組測序數(shù)據(jù)、能有效減少偏倚、類似于RCT研究、用于揭露因果關(guān)系的統(tǒng)計(jì)學(xué)方法。MR可以用于評估因果推斷,以遺傳變異作為工具變量(IVs)來代表特定的暴露,以推斷暴露與結(jié)果之間的因果關(guān)系,將表型對表型的因果研究轉(zhuǎn)化成基因型的研究。優(yōu)勢在于:個(gè)體的遺傳變異先于疾病的結(jié)局,這樣便排除了由于逆向因果問題所帶來的混雜偏倚;現(xiàn)代生物信息技術(shù)對遺傳變異的測量能夠達(dá)到很高的精度,這很大程度上降低了由于測量誤差所帶來的估計(jì)偏倚。
單核苷酸多態(tài)性(SNPs)是MR分析中最常用的一種遺傳變異,主要是指在基因組水平上由單個(gè)核苷酸的變異(轉(zhuǎn)換和顛換,二者之比為2 :1)所引起的DNA序列多樣性。一般而言,SNP是指變異頻率大于1 %的單核苷酸變異。SNP在人類基因組中的發(fā)生頻率比較高,有些SNP位點(diǎn)還會影響基因的功能,導(dǎo)致生物性狀改變甚至致病,是研究人類家族和動植物品系遺傳變異的重要依據(jù)。因此被廣泛用于群體遺傳學(xué)研究和疾病相關(guān)基因的研究,在藥物基因組學(xué)、診斷學(xué)和生物醫(yī)學(xué)研究中起重要作用。
基因座(基因組中特定的位點(diǎn)?;蜃梢允峭暾蚧騿蝹€(gè)核苷酸堿基對)中特定位點(diǎn)的單個(gè)核苷酸堿基已被不同的核苷酸取代,而出現(xiàn)在每個(gè)基因座上的不同可能的核苷酸稱為等位基因(Alleles)。如果一個(gè)基因座中存在多個(gè)不同的等位基因,我們可以將這個(gè)基因座稱為是具有多態(tài)性的。根據(jù)等位基因出現(xiàn)的頻率,可以進(jìn)一步分為主要的等位基因(major alleles)和次要等位基因(minor alleles)。給定SNP的群體中次要等位基因(最小等位基因)的比例稱為“次要等位基因頻率(最小等位基因頻率,MAF)”。MAF常用來作為篩選SNP的條件。
MR模型中,遺傳變異作為工具變量需滿足3個(gè)核心假設(shè):
關(guān)聯(lián)性性假設(shè):遺傳變異(Z)與暴露因素(X)之間存在穩(wěn)健的強(qiáng)相關(guān)關(guān)系(γ≠0)。獨(dú)立性假設(shè):遺傳變異(Z)與影響“暴露因素(X)—結(jié)局(Y)”關(guān)系的混雜因素(U)獨(dú)立(φ1=0)。排他性假設(shè):遺傳變異只能通過暴露因素對結(jié)局產(chǎn)生作用,而不能通過其他路徑影響結(jié)局(φ2=0)。
孟德爾隨機(jī)化分析流程為:
第一步:是找工具變量,作為工具變量的基因都是從別人的研究中挑出來的。所有的基因研究有個(gè)專門的庫叫做genome wide association studies (GWAS)??梢赃x擇從GWAS原文中獲取、從已經(jīng)發(fā)表的MR文章中獲取、R program提取等方法;挑出來研究和暴露相關(guān)的基因SNPs。
第二步:估計(jì)的工具變量對結(jié)局的作用,工具變量對結(jié)局的作用也是從所有的研究中估計(jì)出來的整體效應(yīng),這樣可以拒絕單個(gè)研究的偏倚。
第三步:合并多個(gè)SNP的效應(yīng)量,這個(gè)效應(yīng)量是我們得到暴露和結(jié)局因果效應(yīng)的前提。
第四步就是用合并后的數(shù)據(jù)進(jìn)行孟德爾隨機(jī)化分析和相應(yīng)的敏感性分析。
孟德爾隨機(jī)化分析的要求:1)、數(shù)據(jù)必須至少包括5列信息:SNP列;暴露的beta值;暴露的se值;結(jié)局的beta值;結(jié)局的se值。這里的beta值就是SNP對表型(暴露或者結(jié)局)的效應(yīng)量,se是beta值的標(biāo)準(zhǔn)誤(standarderror)。2)必須要保證暴露和結(jié)局的效應(yīng)等位基因(effect allele)一致,將暴露和結(jié)局的SNP等位基因方向協(xié)同,根據(jù)EAF大小,剔除不能判斷方向的palindromic(回型)SNP和incompatible SNP (A/G vs. A/C);3)檢查是否有SNP與結(jié)局強(qiáng)相關(guān)。
敏感性分析的作用:1)評估結(jié)果是否穩(wěn)健,結(jié)論是否靠譜;2)評估結(jié)果是否有潛在的偏倚(比如基因多效性,數(shù)據(jù)異質(zhì)性);3)評估是否存在某一個(gè)工具變量嚴(yán)重影響結(jié)局變量;敏感性分析主要用一下三個(gè)方法:1)基因多效性檢驗(yàn);2)異質(zhì)性檢驗(yàn);3)“l(fā)eave-one-out”法逐步剔除法,看每剔除一個(gè)SNP后,剩余SNP的效應(yīng)值變化大不大。
由于現(xiàn)有觀察性研究往往止步于相關(guān)性的判斷,無法很好的控制混雜因素和排除由于逆向因果關(guān)系,可能在同一問題上,不同的研究會得到不同結(jié)果,并引發(fā)爭議。MR非常適合在此類問題上做出基于因果效應(yīng)的分析與評價(jià),對于確定疾病病因及干預(yù)方式、控制疾病進(jìn)展或預(yù)后等方面均有重要意義。
比如今天分享的文章,作者首先發(fā)現(xiàn)端粒長度與乳腺癌患病風(fēng)險(xiǎn)的相關(guān)性在臨床研究中存在爭議,且只有其中少數(shù)研究區(qū)分了雌激素受體(ER)不同的表達(dá)狀態(tài)(陽性或陰性)。后作者就此問題設(shè)計(jì)了孟德爾分析(MR),得到因果效應(yīng)關(guān)系。文章于2022/10/21發(fā)表在Frontiers in Oncology(IF 5.7)雜志,題為“Relationship between telomere length and the prognosis of breast cancer based on estrogen receptor status: A Mendelian randomization study”。
作者通過孟德爾隨機(jī)化(MR)分析,將與暴露因子(端粒長度)相關(guān)的遺傳變異作為工具變量(IVs)來評估暴露因子(端粒長度)和具有不同雌激素受體(ER)表達(dá)狀態(tài)的乳腺癌患者的預(yù)后的相關(guān)及因果關(guān)系。由于等位基因是隨機(jī)分配的,因此MR分析可以有效消除混雜因素的影響,并推斷暴露與結(jié)果之間的因果關(guān)系。因ER表達(dá)狀態(tài)有陽性和陰性表達(dá)兩種,作者先通過雙樣本MR分析了端粒長度對乳腺癌患者整體預(yù)后的影響。接下來,再分別評估了端粒長度與ER+和ER-乳腺癌患者預(yù)后之間的關(guān)系。
背景
乳腺癌是全世界女性最常見的癌癥之一,占女性癌癥死亡率的15%。影響罹患乳腺癌的風(fēng)險(xiǎn)和死亡率的危險(xiǎn)因素包括乳腺癌的一級家族史,較早初潮的年齡,較晚的初次生育年齡,較晚的絕經(jīng)年齡,超重或肥胖,口服避孕藥和外源激素的使用等。
雌激素受體(ER)是乳腺癌重要的預(yù)后指標(biāo),大約70%的乳腺癌可以表達(dá)ER并對激素治療敏感,因而比ER陰性的患者具有更好的預(yù)后。端粒是TTAGGG的串聯(lián)重復(fù)序列,具有防止DNA雙鏈斷裂、染色體融合和降解的功能。在維持DNA結(jié)構(gòu)完整性和調(diào)節(jié)細(xì)胞復(fù)制方面發(fā)揮著至關(guān)重要的作用。端粒隨著細(xì)胞分裂周期而縮短,是生物體細(xì)胞衰老的標(biāo)志。因此,端粒已被作為衰老和年齡相關(guān)疾?。ㄈ缧难芗膊。┌Y和糖尿?。┑纳飿?biāo)志物廣泛研究。
端粒長度與乳腺癌發(fā)病率和預(yù)后之間的關(guān)系尚不清楚。一些研究表明端粒長度與乳腺癌患病風(fēng)險(xiǎn)呈正相關(guān),而另外一些研究得到了不同結(jié)果。此外,只有少數(shù)研究基于ER表達(dá)狀態(tài)研究了端粒長度與乳腺癌發(fā)病率之間的關(guān)系,端粒長度與不同ER表達(dá)狀態(tài)的乳腺癌的預(yù)后的關(guān)系尚未被研究?,F(xiàn)有的研究得到不一樣的結(jié)果,可能是由于現(xiàn)有的觀察性研究不能完全排除反向因果關(guān)系和混雜因子,導(dǎo)致結(jié)論有偏差。孟德爾隨機(jī)化(MR)是一種可以解決這些局限性的方法。
材料和方法
1、數(shù)據(jù)收集
收集與暴露和結(jié)果相關(guān)的單核苷酸多態(tài)性(SNP)。從MRCIEU GWAS數(shù)據(jù)庫獲得與端粒長度(暴露)相關(guān)的SNP。從乳腺癌協(xié)會聯(lián)盟(BCAC)進(jìn)行的大型薈萃分析數(shù)據(jù)集中收集了與不同狀態(tài)的ER的乳腺癌生存率相關(guān)的SNP。所有數(shù)據(jù)都屬于歐洲人群。
2、工具變量的提取
選擇SNP作為IVs,以評估端粒長度和乳腺癌風(fēng)險(xiǎn)的相關(guān)性及因果關(guān)系。根據(jù)以下假設(shè)(1)關(guān)聯(lián)性假設(shè):遺傳變異必須與暴露強(qiáng)相關(guān)(P<5×10-8);(2)獨(dú)立性假設(shè):遺傳變異不能與任何潛在的混雜因素相關(guān);(3)排他性假設(shè):遺傳變異僅通過暴露因素影響結(jié)果。
連鎖不平衡(LD)窗口設(shè)置為10000 kb,r2<0.01,以確保所選遺傳變異的獨(dú)立性。LD指的是不同基因座(loci)的等位基因(allele)之間非隨機(jī)(nonrandom)的關(guān)聯(lián),使用兩個(gè)參數(shù)r2和kb來衡量。r2:它是0~1之間的數(shù)據(jù),越小則表示兩個(gè)SNP間是越是完全連鎖平衡的,也即這兩個(gè)SNP的分配是完全隨機(jī)的。kb:指考慮連鎖不平衡的區(qū)域長度,因在遺傳學(xué)上在染色體上距離很近的遺傳位點(diǎn)通常是“捆綁”在一起遺傳給后代的,這也就導(dǎo)致距離很近的位點(diǎn)之間的r2會很大。
根據(jù)PhenoScanner數(shù)據(jù)庫,檢查了這些SNP是否可能違反假設(shè)(2)和(3),排除了與乳腺癌生存密切相關(guān)的SNP(BMI,體重,吸煙,膽固醇)。使用MR多效性殘差和異常值檢驗(yàn)(MR-PRESSO)檢查了所選SNP的可能多效性。此外,為保證暴露和結(jié)局的效應(yīng)等位基因(effect allele)一致,將指代暴露和結(jié)局SNP等位基因方向協(xié)同,剔除不能判斷方向的palindromic(回型) SNP。所有數(shù)據(jù)均來自歐洲人口,這可以減少人口分層的影響。根據(jù)上述標(biāo)準(zhǔn)排除了不適當(dāng)?shù)腎Vs,并使用多種方法來確保結(jié)果的準(zhǔn)確性。
最后,包括104個(gè)SNP(乳腺癌總生存率),99個(gè)SNP(ER陽性乳腺癌生存率)和100個(gè)SNP(ER陰性乳腺癌生存率)用于進(jìn)一步研究。
反向方差加權(quán)(IVW)方法用于初步分析,以評估端粒長度與ER不同狀態(tài)的乳腺癌預(yù)后之間的因果關(guān)系。反向方差加權(quán)是將兩個(gè)或多個(gè)隨機(jī)變量聚合以最小化總和方差的方法,總和中每個(gè)隨機(jī)變量的權(quán)重與其方差成反比,方差通常用于組合獨(dú)立研究的結(jié)果。使用Wald比率方法計(jì)算每個(gè)SNP的暴露-結(jié)果效應(yīng)值。為了確保結(jié)果的準(zhǔn)確性,使用了包括MR-Egger回歸,加權(quán)中位數(shù),懲罰加權(quán)中位數(shù)和最大似然等多種方法。
敏感性分析
敏感性分析用來評估結(jié)果是否穩(wěn)健,結(jié)論是否靠譜,是否有潛在的偏倚(比如基因多效性:指一個(gè)基因影響多種表型;數(shù)據(jù)異質(zhì)性),是否存在某一個(gè)工具變量嚴(yán)重影響結(jié)局變量(一般用“l(fā)eave-one-out”法);
多效性檢驗(yàn):通過漏斗圖和MR-Egger截距測試,以檢測多效性的存在并評估結(jié)果的穩(wěn)健性。
異質(zhì)性檢驗(yàn):通過IVW和MR-Egger檢驗(yàn)評估異質(zhì)性,P值<0.05表明研究中存在異質(zhì)性。MR-PRESSO R軟件包用于評估校正前后MR分析結(jié)果之間是否存在差異。
留一法(即leave-one-out法):使用IVW和MR-Egger法,以評估去除一個(gè)SNP后,其余SNP的綜合效應(yīng)與主效應(yīng)是否一致,如果一致,則表明去除的單個(gè)SNP對MR分析沒有產(chǎn)生過度影響。
結(jié)果
1、孟德爾隨機(jī)化分析
MR分析顯示端粒長度與乳腺癌患者總體預(yù)后呈負(fù)相關(guān)(OR=1.84, 95% CI=1.08-3.14, IVW方法),表明端粒長度是乳腺癌預(yù)后的危險(xiǎn)因素(圖1)。
圖1
端粒長度也與ER陰性乳腺癌的預(yù)后呈負(fù)相關(guān)(OR=1.89, 95% CI=1.11-3.22,IVW法),表明端粒長度是ER狀態(tài)乳腺癌預(yù)后的危險(xiǎn)因素(圖2)。
圖2
端粒長度與ER陽性乳腺癌(OR=0.99,95%CI=0.62-1.58,IVW法)的預(yù)后之間沒有類似的關(guān)系(圖3)。
圖3
為了確保研究結(jié)果的準(zhǔn)確性,還使用其他方法評估了相關(guān)性,這些方法的結(jié)果是一致的(圖 2和3)
敏感性分析
異質(zhì)性分析:IVW檢驗(yàn)(Q=100.710,P=0.545)和MR-Egger檢驗(yàn)(Q=99.691,P=0.545)在總?cè)橄侔?,ER陰性和ER陽性乳腺癌中均未觀察到明顯的異質(zhì)性。
多效性分析:MR-Egger截距檢驗(yàn)顯示P值>0.05,表明不存在水平多效性。MR-PRESSO測試確保了結(jié)果的準(zhǔn)確性(表1)。
表1
留一法分別逐個(gè)剔除SNP后,對于剩下的SNP行效應(yīng)量估計(jì),結(jié)果顯示剔除前和后的效應(yīng)量沒有較大的差異,提示沒有單個(gè)SNP對MR估計(jì)結(jié)果產(chǎn)生顯著影響。漏斗圖未見異常的估計(jì)值(圖S1和S2)。
圖S1(A)
圖S1(B)
圖S1(C)
圖S2(A)
圖S2(B)
圖S2(C)
四、討論與小結(jié)
這項(xiàng)研究表明,端粒長度與乳腺癌的預(yù)后有關(guān),尤其是在ER陰性乳腺癌中;然而,端粒長度與ER陽性乳腺癌的預(yù)后之間沒有顯著相關(guān)性。這些發(fā)現(xiàn)表明,長端??梢灶A(yù)測ER陰性乳腺癌的不良預(yù)后。
其機(jī)制可能在于淋巴細(xì)胞在炎癥和腫瘤發(fā)生過程中受到刺激,并通過NF-kB途徑調(diào)節(jié)端粒酶,從而調(diào)節(jié)端粒長度。長端??赡苁故軗p細(xì)胞存活更長時(shí)間,并繼續(xù)分裂,額外的突變可引發(fā)惡變。維持端粒長度是腫瘤持續(xù)生長所必需的,特別是在晚期腫瘤中。癌細(xì)胞可以通過重新激活上調(diào)端粒酶來維持其永生。另外,癌細(xì)胞可以逆轉(zhuǎn)端粒的磨損,以繞過衰老,這被稱為端粒途徑的替代性延長。
這項(xiàng)研究得到類似的結(jié)論,長端粒的遺傳易感性可能通過端粒維持途徑影響癌癥死亡率。其機(jī)制可能是由于免疫系統(tǒng)受到抑制時(shí),乳腺癌細(xì)胞端??s短的速度減慢,細(xì)胞凋亡減少。另一種解釋是端粒很短的細(xì)胞可能誘導(dǎo)衰老或凋亡,抑制細(xì)胞的增殖潛能,從而支持腫瘤抑制活性。端粒在癌癥中的具體功能機(jī)制尚不清楚。需要進(jìn)一步的研究來確定這些機(jī)制。激素也與端粒長度密切相關(guān),因?yàn)榇萍に乜梢酝ㄟ^其對人端粒酶逆轉(zhuǎn)錄酶(hTERT)的作用和hTERT的AKT依賴性磷酸化的轉(zhuǎn)錄后修飾直接參與端粒酶活化促進(jìn)。
看到這里是否對你有什么啟發(fā)呢?作者從一個(gè)臨床問題出發(fā),查閱文獻(xiàn)后找出爭議點(diǎn)——分析爭議存在可能的原因——已經(jīng)有很多類似的文章了,怎么辦呢?那就根據(jù)疾病本身的基礎(chǔ)分類,將現(xiàn)有的研究范圍“細(xì)化”從而找出研究領(lǐng)域新的空白。
很多與癌癥預(yù)后相關(guān)結(jié)論,都可以巧妙利用這樣思路。通過將癌癥類型,研究人群等等的范圍“縮小”或者“擴(kuò)大”,從而挖掘出一個(gè)新的研究空白。更多思路,請聯(lián)系我們~