咚咚咚,您的生信早餐已送達(dá),請及時享用~~~嘻嘻,朋友們,好久不見吖,小編最近在做遺傳突變相關(guān)的課題,看了一些這方面的文章之后,發(fā)現(xiàn)在篩選疾病相關(guān)的突變位點時,大家基本上都會選擇過濾掉同義突變,這樣看似好像更嚴(yán)謹(jǐn),但看著所剩無幾的候選位點,小編不禁陷入沉思,難道這些同義突變就真的沒有臨床價值嗎?經(jīng)過一番檢索,發(fā)現(xiàn)果然還是有相關(guān)研究的,于是小編選了幾篇感覺還不錯的想跟大家分享一下,有一篇2021年11月底發(fā)表在NAR上的文章,是對同義突變(sSNVs)進(jìn)行影響預(yù)測的,我們重點來看一下吧。
突變類型有哪些?
關(guān)于分類,小編沒有找到一個通用的標(biāo)準(zhǔn),就按照大家常用的簡單介紹一下。根據(jù)基因突變對蛋白質(zhì)序列的影響,可以分為移碼突變、同義突變、錯義突變和無義突變等,本文重點討論SNP哈。
★ 移碼突變(InDel):一個或多個非3的整數(shù)倍的DNA序列插入或缺失,使得翻譯出的蛋白質(zhì)序列與之前完全不同。
★ 無義突變:DNA序列上的一個點突變使得編碼氨基酸的密碼子變?yōu)?strong>終止密碼子,導(dǎo)致mRNA的翻譯提前終止,產(chǎn)生較短的多肽鏈或蛋白質(zhì),通常沒有功能。
★ 錯義突變(非同義突變):DNA序列上的一個點突變使編碼一種氨基酸的密碼子變?yōu)榫幋a另一種氨基酸的密碼子,會影響蛋白質(zhì)產(chǎn)物的結(jié)構(gòu)和功能。
★ 同義突變:發(fā)生在基因編碼區(qū),由于遺傳密碼子的簡并性,不改變氨基酸序列。
★ 沉默突變:不改變產(chǎn)物蛋白質(zhì)氨基酸序列的點突變,發(fā)生在不編碼蛋白質(zhì)的區(qū)域或者為同義突變。
同義突變的作用機制
一個基因組攜帶的同義突變(sSNVs)并不比非同義突變少,而且,它們可能通過多種途徑來影響基因功能(圖1),導(dǎo)致疾病的發(fā)生。比如:
A、影響轉(zhuǎn)錄因子的結(jié)合,或者改變基因內(nèi)順式調(diào)控元件的活性,導(dǎo)致基因轉(zhuǎn)錄強度改變;
B、改變pre-mRNA的剪接模式;
C、導(dǎo)致mRNA二級結(jié)構(gòu)以及穩(wěn)定性的改變;
D、tRNA結(jié)合的擺動性導(dǎo)致多肽鏈的改變;
E、蛋白質(zhì)折疊和RNA翻譯在參與翻譯的核糖體上同時進(jìn)行(共翻譯折疊),導(dǎo)致蛋白質(zhì)結(jié)構(gòu)的改變。
sSNV影響的預(yù)測
由于可用實驗數(shù)據(jù)的有限性,預(yù)測sSNV影響的方法比較少,現(xiàn)有的計算方法大致可分為兩類:專門預(yù)測sSNV的,如SilVA、reg-SNPsplicing、DDIG-SN、TraP 和IDSV;還有通用的方法,即同義突變和非同義突變都能預(yù)測,如CADD、DANN、FATHMM-MKL和MutationTaster2等。這些方法大多都過度依賴序列保守信號,除了CADD和DANN之外,其他幾種預(yù)測方法都是基于HGMD和ClinVar數(shù)據(jù)庫中的“致病”突變進(jìn)行訓(xùn)練的,然而,“致病性”并不等同于“功能影響”,此外,實驗性疾病突變注釋的不可靠以及數(shù)據(jù)庫之間數(shù)據(jù)的不統(tǒng)一性,使得對人類基因組中sSNVs的預(yù)測和注釋變得復(fù)雜和困難,小編之前在使用不同工具進(jìn)行預(yù)測時,發(fā)現(xiàn)很多突變位點的預(yù)測結(jié)果的確不統(tǒng)一。
本著長江后浪追前浪的原則,咱們重點看一下最新的預(yù)測sSNVs影響的方法——synVep,該方法基于機器學(xué)習(xí),收集了密碼子偏好性和自相關(guān)、蛋白質(zhì)結(jié)構(gòu)、mRNA穩(wěn)定性、與調(diào)控/剪接位點的距離、轉(zhuǎn)錄表達(dá)譜等相關(guān)的35種特征,對每個可能的sSNV進(jìn)行危害性評估。
突變標(biāo)簽定義:作者從Ensembl BioMart下載了轉(zhuǎn)錄本數(shù)據(jù),過濾之后用ANNOVAR注釋,篩選出所有可能的sSNVs。根據(jù)它們在gnomAD中出現(xiàn)的次數(shù),賦予每個sSNV不同的標(biāo)簽。singleton表示只在gnomAD的一個個體中發(fā)現(xiàn)的sSNVs; observed代表gnomAD中除singleton外的其他sSNVs;generated代表除singleton和observed外的所有可能的sSNVs。此外,unobservable代表generated集合中被PUL標(biāo)為可能是observed的sSNVs,not-seen則表示generated的其他sSNVs。研究還整合了170個經(jīng)過矯正的sSNVs ,將其定義為curated-effect sSNVs。
模型構(gòu)建:
(1)首先選擇了” observed”和”generated”這兩個突變集合,通過正樣本無標(biāo)簽學(xué)習(xí)(PUL)方法將”generated”進(jìn)一步分為”unobservable” 和”not-seen” (observable)兩類;
(2)使用observed和not-seen集合訓(xùn)練了一個中間模型,對common sSNVs(MAF > 1%)、curated-effect sSNVs 、observed和not-seen sSNV進(jìn)行打分;
(3)得分高于curated-effect集合均值的sSNVs定義為effect,得分低于常見sSNV集合均值的定義為no-effect。最后,得到了7,385,137個no-effect和32,117 ,625個effect sSNVs。
主要結(jié)果
對比common sSNVs集合和curated-effect sSNVs集合的得分可以發(fā)現(xiàn),后者的更高,表明突變影響更大,與事實相符。在對這兩類集合分類時,synVep有最高的auPRC 以及最低的auROC,這個問題,小編查了一下資料,PRC對數(shù)據(jù)不平衡更加敏感,這里作者用的兩類集合的比例接近1:10,所以,ROC應(yīng)該更可靠一點~但是,在默認(rèn)閾值的情況下,synVep的精確度也是相對比較高的(圖3.G)。
在對ClinVar數(shù)據(jù)庫中的Benign和Pathogenic sSNVs的突變影響打分時,所有預(yù)測器的結(jié)果都是Pathogenic sSNVs的分值更高,即有害性更大。而且,在默認(rèn)閾值時,synVep的分類準(zhǔn)確度是最高的(圖4)。
研究將所有sSNVs進(jìn)行了跨物種注釋,CSVs代表人類參考序列和另一個物種的
直系同源序列之間的密碼子差異。總體來說,CSVs的得分比非CSVs低,產(chǎn)生影響的可能性更小。作者還發(fā)現(xiàn),物種特異性的CSVs的synVep得分同進(jìn)化距離呈正相關(guān)關(guān)系(圖5)。
此外,研究還發(fā)現(xiàn)singleton比observed突變更有可能產(chǎn)生影響;剪接干擾突變的synVep得分高于非剪接干擾突變等,一些不是很重要的結(jié)果小編就不在此贅述了。
同其他方法相比,synVep沒有使用疾病/有害性標(biāo)記的訓(xùn)練數(shù)據(jù),而是用了來自于測序數(shù)據(jù)的sSNVs,擺脫了對黃金訓(xùn)練集的依賴,在合適的情況下,大家不妨考慮借鑒一下這種方法,而不是簡單粗暴的忽視掉所有的同義突變~好了,今天到這了,have a nice day!
參考文獻(xiàn):
1、Zeng Z, Aptekmann AA, Bromberg Y. Decoding the effects of synonymous variants. Nucleic Acids Res. 2021 Dec 16;49(22):12673-12691. doi: 10.1093/nar/gkab1159. PMID: 34850938; PMCID: PMC8682775.
2、Buske OJ, Manickaraj A, Mital S, Ray PN, Brudno M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 2013 Aug 1;29(15):1843-50. doi: 10.1093/bioinformatics/btt308. Epub 2013 Jun 4. Erratum in: Bioinformatics. 2015 Mar 1;31(5):799. PMID: 23736532.
3、Zeng Z, Bromberg Y. Predicting Functional Effects of Synonymous Variants: A Systematic Review and Perspectives. Front Genet. 2019 Oct 7;10:914. doi: 10.3389/fgene.2019.00914. PMID: 31649718; PMCID: PMC6791167.