機(jī)器學(xué)習(xí)方法是每一個(gè)生物信息從業(yè)人員都繞不開的能力要求,可以說生物信息領(lǐng)域研究,對(duì)生物醫(yī)學(xué)數(shù)據(jù)的挖掘和解析大都得益于有效的機(jī)器學(xué)習(xí)算法的選擇和應(yīng)用。隨著近年來計(jì)算機(jī)算力的提升和硬件發(fā)展,機(jī)器學(xué)習(xí)的重要分支——以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的一眾深度學(xué)習(xí)模型再度走進(jìn)大家的視野,并且在生物醫(yī)學(xué)研究領(lǐng)域取得了廣泛應(yīng)用和迅猛發(fā)展。深度學(xué)習(xí)模型避免了人為干預(yù)的特征選擇過程,能夠自行完成對(duì)原始數(shù)據(jù)特征的表示學(xué)習(xí),從而提取有效的特征,這一點(diǎn)對(duì)于識(shí)別有效的生物標(biāo)志物十分關(guān)鍵,已經(jīng)在復(fù)雜疾病診斷、預(yù)測(cè)和預(yù)后相關(guān)領(lǐng)域取得了廣泛應(yīng)用。
目前,已經(jīng)有不少的研究者開始探索將深度學(xué)習(xí)模型應(yīng)用于開發(fā)精準(zhǔn)的生物標(biāo)志物,幫助有效的疾病管理。發(fā)表在Genomics Proteomics Bioinformatics(IF = 6.409,Q1)的研究Denoising Autoencoder, A Deep Learning Algorithm, Aids the Identification of A Novel Molecular Signature of Lung Adenocarcinoma. 就給我們提供了很好的借鑒思路。作者采用無監(jiān)督度學(xué)習(xí)算法,自編碼器(Auto decoder)模型的拓展模型——去噪自編碼器(Denoising Autoencoder)直接處理高維的基因表達(dá)特征,從而構(gòu)建魯棒的疾病生物標(biāo)志物。自編碼器(Auto decoder)是一種較為成熟的無監(jiān)督深度學(xué)習(xí)算法,能夠基于反向傳播與最優(yōu)化方法算法,利用輸入數(shù)據(jù)本身作為監(jiān)督,完成原始特征矩陣的非線性特征轉(zhuǎn)換,提取的低維特征能夠較好的反映原數(shù)據(jù)的特征。去噪自編碼器是自編碼器的拓展模型之一,會(huì)在輸入數(shù)據(jù)中引入噪聲,從而迫使編碼器的隱藏層捕捉更魯棒的特征。生物標(biāo)志物的構(gòu)建流程如下:
接下來我們借鑒該研究機(jī)器學(xué)習(xí)的方法設(shè)計(jì)了創(chuàng)新性新思路,對(duì)分析方法創(chuàng)新性、文章水平有更高要求的粉絲們要注意記筆記了!
二維碼
基于深度學(xué)習(xí)的疾病標(biāo)志物挖掘與驗(yàn)證
構(gòu)建去噪自編碼器模型,進(jìn)行特征提取
1、系統(tǒng)收集疾病樣本的轉(zhuǎn)錄組數(shù)據(jù),進(jìn)行多套數(shù)據(jù)ComBat批次矯正后整合。統(tǒng)計(jì)收集樣本的組織學(xué)亞型,給出臨床信息的統(tǒng)計(jì)表格。
2、基于整合后的表達(dá)譜進(jìn)行PCA降維,觀察不同數(shù)據(jù)集之間是否仍有顯著差異。
3、基于ADAGE package構(gòu)建去噪自編碼器模型(DAE)。提取特征節(jié)點(diǎn)。
篩選預(yù)后相關(guān)特征節(jié)點(diǎn)
基于特征得分的特征矩陣,計(jì)算每個(gè)節(jié)點(diǎn)的特征得分與患者OS的關(guān)聯(lián)篩選預(yù)后相關(guān)的特征節(jié)點(diǎn),繪制森林圖。并基于每個(gè)節(jié)點(diǎn)的特征得分的中值分類樣本,繪制K-M曲線和log-rank檢驗(yàn)。
探究預(yù)后相關(guān)特征節(jié)點(diǎn)的臨床可解釋性
探究腫瘤亞型、性別、分期、年齡分組等臨床特征分組之間特征得分是否顯著差異。
探究預(yù)后相關(guān)特征節(jié)點(diǎn)的生物學(xué)解釋性
探究基因組層面的關(guān)聯(lián):探究預(yù)后相關(guān)特征節(jié)點(diǎn)得分與腫瘤突變負(fù)荷、同源重組修復(fù)缺陷得分(HRD),拷貝數(shù)變異負(fù)荷,瘤內(nèi)異質(zhì)性得分的相關(guān)性
基于MSigDB 獲得cancer hallmarks基因集合,基于ssGSEA計(jì)算hallmarks得分,計(jì)算預(yù)后相關(guān)特征節(jié)點(diǎn)得分與cancer hallmarks的關(guān)聯(lián)情況
探究特征節(jié)點(diǎn)反映的腫瘤免疫(代謝/調(diào)控機(jī)制)特征
這部分可根據(jù)研究關(guān)注點(diǎn)以及四中觀察到的關(guān)聯(lián)進(jìn)行靈活調(diào)整,是一個(gè)深入分析。
以腫瘤免疫特征為例。
(1)探究特征節(jié)點(diǎn)得分與免疫檢查點(diǎn)基因表達(dá)水平的關(guān)聯(lián)(spearman)
(2)基于CIBERSORT或XCell計(jì)算免疫細(xì)胞浸潤(rùn),與預(yù)后相關(guān)節(jié)點(diǎn)的關(guān)聯(lián)分析。
基于關(guān)鍵特征節(jié)點(diǎn)構(gòu)建疾病標(biāo)志物
1、提取關(guān)鍵特征節(jié)點(diǎn)
2、提取權(quán)重top100的基因進(jìn)行功能富集。
3、進(jìn)一步基于生存時(shí)長(zhǎng)中值分組樣本,保留生存分組之間表達(dá)差異顯著的基因。
4、構(gòu)建具有可推廣性的預(yù)后特征:基于過濾得到的這部分基因的表達(dá)值與對(duì)應(yīng)在特征節(jié)點(diǎn)中的權(quán)重乘積之和作為特征得分構(gòu)建預(yù)后標(biāo)志物。
標(biāo)志物的預(yù)后效能
訓(xùn)練集、獨(dú)立驗(yàn)證集,基于單因素、多因素?ox 和 log-rank檢驗(yàn)驗(yàn)證預(yù)后標(biāo)志物的效能。
該思路利用成熟的自編碼器深度學(xué)習(xí)模型,對(duì)原始的組學(xué)數(shù)據(jù)進(jìn)行特征提取,并基于基因在新特征空間的映射,開發(fā)了有效的組織分型和預(yù)后標(biāo)志物。機(jī)器學(xué)習(xí)挖掘手段是很有創(chuàng)新意義的,并且深度學(xué)習(xí)模型提取特征的也是很值得進(jìn)一步拓展探究的方向。