隨著基因測序技術(shù)的進(jìn)一步突破,我們已經(jīng)能識別人群中數(shù)以萬計(jì)的基因突變,在以往的研究里,都是針對某一基因上一些突變來研究其與疾病的關(guān)聯(lián),以此來采取預(yù)防或治療的手段,但若是基因突變的數(shù)量以十萬級為單位呢,對于這些變異,我們?nèi)绾蔚弥摶蛲蛔兪欠駮绊懟蚬δ埽瑥亩鴮?dǎo)致疾病呢?下面就跟著小編一起來看看如何使用深度生成模型來檢測數(shù)十萬在不同物種中的基因變異模式,以此來預(yù)測哪些序列變異會導(dǎo)致疾病。
一、研究背景
人類基因組測序的指數(shù)增長突顯了人類群體中存在的大量遺傳變異,量化基因組中特定變異與疾病相關(guān)聯(lián)的遺傳研究將對臨床方案產(chǎn)生顯著影響。然而,現(xiàn)有的探測技術(shù)并不能完全的探測到人群中基因變異數(shù)量,超過98%的變異對人體產(chǎn)生的影響仍是未知的。
現(xiàn)有臨床上已經(jīng)存在可以評估數(shù)千個基因變異影響的模型,但這些模型不容易擴(kuò)展到數(shù)千種蛋白質(zhì),尤其是變異組合,并嚴(yán)重依賴于與人類疾病表型相關(guān)或至少相關(guān)的檢測方法的可用性。并且這些模型往往在臨床標(biāo)簽上進(jìn)行有監(jiān)督學(xué)習(xí),而標(biāo)簽偏差、標(biāo)簽稀疏性、標(biāo)簽噪聲和數(shù)據(jù)泄漏將夸大在現(xiàn)實(shí)預(yù)測場景中的準(zhǔn)確率,因此這類模型的結(jié)果通常被認(rèn)為是不夠可靠的。
基于此,來自哈佛大學(xué)醫(yī)學(xué)院和牛津大學(xué)的研究人員一篇發(fā)表在國際頂刊Nature(IF:49.962)上的文章,其開發(fā)了一種基于進(jìn)化序列的深度生成模型,成功預(yù)測了3219個疾病基因中超過3600萬個變體的致病性,并將超過25萬個未知變體進(jìn)行了歸類。
二、結(jié)果
1、從進(jìn)化預(yù)測致病性
基于進(jìn)化數(shù)據(jù)深度生成模型的疾病變異預(yù)測系統(tǒng)分為兩步。
第一步,使用深度生成模型---變分自編碼器VAE學(xué)習(xí)每個蛋白質(zhì)的氨基酸序列分布,捕獲了進(jìn)化過程中自然序列的約束,包括位置之間的復(fù)雜依賴關(guān)系。
在對進(jìn)化序列進(jìn)行訓(xùn)練之后,通過從 VAE 學(xué)習(xí)的近似后驗(yàn)分布中采樣來估計(jì)每個單個氨基酸變體相對于野生型的相對可能性,這種相對可能性稱之為進(jìn)化指數(shù)。
當(dāng)將此進(jìn)化指數(shù)與臨床標(biāo)簽進(jìn)行比較時(shí),區(qū)分致病性和良性標(biāo)簽的值在蛋白質(zhì)之間明顯一致,說明可采用無監(jiān)督的方法來推斷致病性。
第二步,在所有單一氨基酸變異的蛋白質(zhì)進(jìn)化指標(biāo)的分布上擬合了一個雙組分全局-局部混合高斯混合模型。
這一過程的輸出是EVE評分,它是定義在[0,1]區(qū)間內(nèi)的連續(xù)致病性評分,0表示最良性,1表示最具致病性。
對于這些分配,研究人員使用高斯混合模型的預(yù)測熵作為分類不確定性的度量,并將變異分為三類:良性、不確定性或致病性。
將EVE模型運(yùn)用于ClinVar數(shù)據(jù)庫中的3219個人類基因上(AUC=0.91),且EVE的性能對每個蛋白質(zhì)的標(biāo)簽數(shù)量是穩(wěn)健的,說明EVE模型可以預(yù)測絕大多數(shù)基因變異的臨床意義,并能推廣到注釋較少的基因。
2、EVE模型優(yōu)于已知模型, 和實(shí)驗(yàn)預(yù)測一樣準(zhǔn)確
研究人員將EVE模型與已知的模型進(jìn)行比對,發(fā)現(xiàn)EVE 在預(yù)測已知臨床標(biāo)簽方面優(yōu)于所有有監(jiān)督和無監(jiān)督的方法。由于變異分類的結(jié)果因基因而異,研究人員所提出方法的一個重要特征是能夠?yàn)轭A(yù)測分配一定程度的不確定性,允許在預(yù)測的準(zhǔn)確性和變異的覆蓋范圍之間進(jìn)行權(quán)衡。如果拋開越來越多的“不確定性”變異不談,這樣就可以使比已經(jīng)確實(shí)分類為致病性或良性的變異更高的準(zhǔn)確性。例如,排除25%的最不確定的變異導(dǎo)致致病和良性分類的準(zhǔn)確率約為90%(圖2b)。
研究人員對于計(jì)算預(yù)測是否和實(shí)驗(yàn)預(yù)測一樣準(zhǔn)確進(jìn)行了檢驗(yàn)。對于ClinVar中具有大量高質(zhì)量標(biāo)簽的5個基因(BRCA1, TP53,PTEN,MSH2,SCN5A)來說,EVE在預(yù)測臨床意義方面的總體表現(xiàn)與專為預(yù)測致病性而設(shè)計(jì)的深度突變掃描實(shí)驗(yàn)一致甚至更好,而當(dāng)從ClinVar數(shù)據(jù)庫中選擇高質(zhì)量標(biāo)簽較少的更大基因組的數(shù)據(jù)時(shí),EVE模型的表現(xiàn)甚至更好
3、對 3600 萬個變體的預(yù)測
研究人員為3219個疾病相關(guān)基因的3600萬個單一氨基酸變異提供連續(xù)的EVE分?jǐn)?shù)和類別分配。在這些變異中,迄今為止至少一個人類中觀察到約有130萬個變異,但這其中只有大約3%在ClinVar中有臨床解釋。在去掉25%最不確定的變異以保持大約90%的準(zhǔn)確率之后,EVE的類別分配對總共約2700萬個變異和超過80萬個(約64%)的人類迄今看到的變異提供了解釋。
所有單一氨基酸變異的連續(xù)得分提供了一個與類別分配的情況。EVE分?jǐn)?shù)在蛋白質(zhì)中的分布突出了高致病性簇,遵循了功能重要性可能預(yù)期的趨勢,如疏水核心、配體結(jié)合和活性位點(diǎn)。例如,SCN4A-SCN1B離子通道復(fù)合物(PDB 6AGF38)中許多具有高EVE得分的變異位于復(fù)合物界面,排列在SCN4A孔和SCN1B的疏水核心。對于錯配DNA修復(fù)復(fù)合物MSH2-MSH6(與Lynch綜合征和大約20%的散發(fā)性癌癥有關(guān)),在臨床標(biāo)記稀少(但在人群中觀察到)的ADP和DNA (PDB 2O8B)附近,EVE致病信號強(qiáng)烈。
4、將 EVE 與其他證據(jù)結(jié)合
EVE 提供單一證據(jù)來源,使其非常適合與其他正交證據(jù)來源相結(jié)合。為了說明這一點(diǎn),研究人員將模型類別分配與來自gnomAD2和其他形式的現(xiàn)有證據(jù)的人口數(shù)據(jù)結(jié)合起來,對25.6萬個變異沒有潛在臨床解釋的重新分類,另外539個變異與當(dāng)前ClinVar狀態(tài)相矛盾,表明EVE模型可以為變異解釋提供有價(jià)值的獨(dú)立證據(jù)
三、討論
將機(jī)器學(xué)習(xí)與臨床預(yù)測相結(jié)合,可以說是生信領(lǐng)域里一大熱點(diǎn)之一。本文中研究人員提出了一種利用深度生成模型來預(yù)測變異致病性而不依賴標(biāo)簽的方法,采用深度學(xué)習(xí)計(jì)算機(jī)學(xué)習(xí)蛋白質(zhì)的氨基酸序列分布,繪制跨生物體的序列變異分布進(jìn)而在預(yù)測變異對蛋白質(zhì)功能和穩(wěn)定性的影響。
深度學(xué)習(xí)正在滲透到生物學(xué)領(lǐng)域,在生物學(xué)中,深度學(xué)習(xí)擁有大量數(shù)據(jù)及處理能力的技術(shù),利用這些算法挖掘基因組數(shù)據(jù),可以在識別遺傳變異類型,藥物發(fā)現(xiàn)、蛋白質(zhì)結(jié)構(gòu)預(yù)測、細(xì)胞圖像分類等生物學(xué)領(lǐng)域中發(fā)揮著巨大的潛力,一篇SCI就到手了!
參考文獻(xiàn)
[1] Frazer, J., Notin, P., Dias, M. et al. Disease variant prediction with deep generative models of evolutionary data. Nature 599, 91–95 (2021). https://doi.org/10.1038/s41586-021-04043-8