對(duì)于我們搞科研的人來說,文章要想發(fā)高分,要么精,要么新,要么工作量相當(dāng)大,憑著辛苦發(fā)個(gè)差不多的綜述。在生信行業(yè)發(fā)展日益成熟,甚至于開始內(nèi)卷的當(dāng)下,相信大家都有一個(gè)同感,那就是現(xiàn)在的文章不如以前那么好發(fā)了!這種情況下呢,就需要我們適時(shí)的轉(zhuǎn)換一下思路,不要總是將自己的思維局限某一領(lǐng)域里,總有一些被大家忽視的犄角旮旯可以讓我們找點(diǎn)東西做做文章的嘛!之前非編碼RNA的火熱就告訴我們一個(gè)道理:存在即合理,能被自然選擇留下的東西一定是有他的作用。這不,小編最近就看到了一篇發(fā)表在Nature Biotechnology(IF=54.908)雜志上的文章,作者著眼于人類基因組中的非特異區(qū)域,系統(tǒng)地總結(jié)了基因組在該區(qū)域的突變事件。小編特意去檢索了一下,發(fā)現(xiàn)相關(guān)的文章真的是少之甚少,有新意,有方法,難怪這篇基本純生信的文章能發(fā)到這個(gè)水平的雜志上。話不多說,正餐開始!
咳咳,先容我簡(jiǎn)單介紹一下研究背景,目前高通量測(cè)序普遍使用的是短讀長(zhǎng)技術(shù),但是基因組結(jié)構(gòu)在進(jìn)化中會(huì)發(fā)生重復(fù)和重排,使用這種短讀的測(cè)序技術(shù)時(shí),就會(huì)導(dǎo)致基因組約10%的區(qū)域是非特異的,即有些序列不只存在于染色體的一處位置,這就使得突變檢測(cè)有了盲點(diǎn),所以我們所熟知的PCAWG(全基因組泛癌分析)等研究都是基于基因組特異區(qū)域的,而非特異區(qū)域包含著參與人類疾病和發(fā)育過程的基因和調(diào)控元件,以及在癌癥中經(jīng)常發(fā)生突變的剪接因子和核RNAs。因此,該研究利用PCAWG數(shù)據(jù)集,利用同義詞庫方法對(duì)基因組上非特異區(qū)域進(jìn)行突變注釋,補(bǔ)充了體細(xì)胞單堿基替換圖譜。
結(jié)果一、利用同義詞庫注釋識(shí)別體細(xì)胞突變
作者通過構(gòu)建機(jī)器學(xué)習(xí)模型,對(duì)PCAWG數(shù)據(jù)集中的樣本重新call體細(xì)胞突變,然后進(jìn)行同義詞庫注釋,將在基因組中位置唯一的定義為”local”,能夠鏈接到可替代位置的定義為” thesaurus” (下文統(tǒng)稱為特異突變和同義詞庫突變)。同PCAWG本來的突變數(shù)據(jù)相比,作者注釋得到的特異區(qū)域突變集的假陽性和假陰性率均不到10%,這跟數(shù)據(jù)集內(nèi)部的一致性相關(guān);而同義詞庫突變集與PCAWG已有的突變幾乎沒有交疊(圖1.b),表明這些位點(diǎn)之前可能被”隱藏”了。接下來,作者發(fā)現(xiàn)了特異突變集和同義詞庫突變集總突變負(fù)荷、等位頻率的高度相關(guān)性(圖1.c),最后,研究又使用一個(gè)單獨(dú)的癌癥樣本進(jìn)行了驗(yàn)證,特異突變和同義詞突變的等位頻率驗(yàn)證率分別超過了90%和80%,一定程度上證實(shí)了其可靠性。
結(jié)果二、同義詞庫突變和特異突變的相關(guān)性
該研究以三核苷酸為背景,對(duì)突變進(jìn)行分層,發(fā)現(xiàn)在大多數(shù)樣本中,特異突變譜和同義詞庫突變譜是顯著相關(guān)的(圖2.a),而關(guān)聯(lián)強(qiáng)度主要受突變負(fù)荷的影響(圖2.b)。通過對(duì)比特異突變譜和同義詞庫突變譜的UMAP以及特定簇的突變模式,可以發(fā)現(xiàn)它們?cè)诓煌┬院头肿油蛔冞^程中都具有相似性(圖2.c-d)。
結(jié)果三、同義詞庫突變影響上千種功能原件
作者通過基因注釋對(duì)基因組區(qū)域進(jìn)行了定義,發(fā)現(xiàn)同義詞庫突變與1,744個(gè)編碼基因相關(guān)。然后,該研究以區(qū)域長(zhǎng)度為協(xié)變量,對(duì)編碼區(qū)基因的群體頻率進(jìn)行分位數(shù)回歸模型擬合,發(fā)現(xiàn)三種模式下的趨勢(shì)是一致的(圖3.b)。最后,作者綜合泛癌z scores和基于熵的特異性度量,對(duì)編碼序列、啟動(dòng)子等區(qū)域進(jìn)行可視化(圖3.d-e),總的來看,大多基因都不是反復(fù)突變的,而且也不特異存在于某一癌型,基因TP53和KRAS的編碼區(qū)分別是泛癌復(fù)發(fā)和特異突變的高發(fā)區(qū),而且只含有特異突變。但是,分值比較高的同義詞基因中也包含了一些癌基因,如PIK3CA在乳腺癌中富集同義詞庫突變,此外, IGLC、IGHG、IGHJ和IGHM 家族的免疫球蛋白元件在啟動(dòng)子序列分析中具有較高的復(fù)發(fā)率和特異性(圖3.e)。
結(jié)果四、復(fù)發(fā)突變影響的基因家族
基于以上可視化分析的結(jié)果,作者將所有同義詞庫基因和COSMIC中的癌癥基因進(jìn)行交疊,發(fā)現(xiàn)了35個(gè)癌癥基因編碼區(qū)、以及29個(gè)癌癥基因的非翻譯區(qū)和啟動(dòng)子區(qū)的同義詞突變(圖4.a)。其中,NUTM2A, NUTM2B, SSX2和SSX4這四個(gè)基因只攜帶同義詞庫突變 (眼尖的小編發(fā)現(xiàn)圖中SSX2這個(gè)基因?qū)?yīng)的顏色標(biāo)錯(cuò)了~),這與它們因?yàn)橐孜缓腿诤贤蛔?,而非堿基替換而被數(shù)據(jù)庫記錄所一致,這種情況下同義詞替換就為突變事件進(jìn)行了補(bǔ)充。然后,我們來看圖4.b,這里作者可視化了單個(gè)基因序列上的所有突變,以PIK3CA和KMT2C為例,同PCAWG數(shù)據(jù)庫的突變集相比,他們發(fā)現(xiàn)了更多的特異突變,而同義詞庫突變填補(bǔ)了特異突變之間的空白。
除了已知的癌癥基因,作者發(fā)現(xiàn)一些富集同義詞庫突變的基因,也包含有特異突變,如突變負(fù)荷較高的ANKRD30A和TPTE,都與癌癥相關(guān)通路互作;TRIM64B和TRIM49所在的蛋白家族參與先天免疫、自噬和癌變等過程。研究還發(fā)現(xiàn),在同一蛋白家族中,受單個(gè)基因影響的樣本基本上是不重疊的(圖4.f)。在啟動(dòng)子區(qū)富集突變的基因中,包括一些免疫球蛋白家族成員(圖4.g),在所有免疫球蛋白基因片段上游的序列中,同義詞庫突變占所有變異的19.7%,以C > T替換為主(圖4.h)。
好了,正文到此結(jié)束。最后,正如作者自己說的那樣,他們只分析了體細(xì)胞替換事件,像InDel,CNV等突變類型,隨著注釋的完善,也是很有研究?jī)r(jià)值的。
小編個(gè)人感覺,同其他高分文章相比,這篇的回報(bào)/投入比已經(jīng)算是高的了,有好的創(chuàng)新思路就要大膽的去嘗試,而不要一味的跟隨熱點(diǎn),畢竟偉大的愛因斯坦曾經(jīng)說過——在科學(xué)上,每一條路都應(yīng)該走一走,發(fā)現(xiàn)一條走不通的路,就是對(duì)科學(xué)的一大貢獻(xiàn)(是真的說過,不是小編在瞎扯哈~)。多多思考,勇于嘗試,我們也是有可能于滄海中拾遺的,就算結(jié)果不好,那也是為科學(xué)做了貢獻(xiàn)呢,是吧! Have a nice day!