隨著遺傳學(xué)、育種學(xué)的不斷發(fā)展和人類基因組計(jì)劃和分子生物學(xué)的日益發(fā)展,生物學(xué)數(shù)據(jù)在短短的幾十年里得到了爆發(fā)式地增長。比如生物信息學(xué)里面的:回歸分析、隨機(jī)森林、支持向量機(jī)等算法,都是比較成熟的應(yīng)用了。在最近閱讀文獻(xiàn)得過程中,小編發(fā)現(xiàn)了一篇材料學(xué)科的文獻(xiàn),文中用到的XGBoost算法與小編之前鉆研過的兩篇生信文章的算法十分相似,那么今天就給大家剖析一下當(dāng)生物信息遇見機(jī)器學(xué)習(xí),會(huì)有什么火花,自己文章中又如何加入這些有趣的機(jī)器學(xué)習(xí)方法,增加創(chuàng)新,幫助你投不出去純分析文章增加成本。
一、生物信息學(xué)數(shù)據(jù)
研究的數(shù)據(jù)類型,可以分為基因型數(shù)據(jù)(GenoType Data)、表達(dá)量數(shù)據(jù)等;其中基因型數(shù)據(jù)則是通過WGS、WES、基因芯片數(shù)據(jù)獲得的。
如今,基因組信息被廣泛用于癌癥的精確治療。由于個(gè)體類型的組學(xué)數(shù)據(jù)只代表單一觀點(diǎn),存在數(shù)據(jù)噪聲和偏差,因此需要多種類型的組學(xué)數(shù)據(jù)來準(zhǔn)確預(yù)測(cè)癌癥預(yù)后。然而,由于多組學(xué)數(shù)據(jù)中存在大量冗余變量,但樣本量相對(duì)較小,有效整合多組學(xué)數(shù)據(jù)具有一定的挑戰(zhàn)性。
二、機(jī)器學(xué)習(xí)與生物信息學(xué)數(shù)據(jù)的結(jié)合
我們?cè)絹碓蕉嗟乜吹綑C(jī)器學(xué)習(xí)在生信文章中應(yīng)用,例如針對(duì)數(shù)據(jù)尋找可用的模式然后進(jìn)行預(yù)測(cè)。通常,這些預(yù)測(cè)模型用于操作流程以優(yōu)化決策過程,但同時(shí)它們也可以提供關(guān)鍵的洞察力和信息來報(bào)告戰(zhàn)略決策。
機(jī)器學(xué)習(xí)的基本前提是算法訓(xùn)練,提供特定的輸入數(shù)據(jù)時(shí)預(yù)測(cè)某一概率區(qū)間內(nèi)的輸出值。請(qǐng)記住機(jī)器學(xué)習(xí)的技巧是歸納而非推斷——與概率相關(guān),并非最終結(jié)論。
構(gòu)建這些算法的過程被稱之為預(yù)測(cè)建模。一旦掌握了這一模型,有時(shí)就可以直接對(duì)原始數(shù)據(jù)進(jìn)行分析,并在新數(shù)據(jù)中應(yīng)用該模型以預(yù)測(cè)某些重要的信息。模型的輸出可以是分類、可能的結(jié)果、隱藏的關(guān)系、屬性或者估計(jì)值。
如果我們關(guān)心的是估算值或者連續(xù)值,預(yù)測(cè)也可以用數(shù)字表示。輸出類型決定了最佳的學(xué)習(xí)方法,并會(huì)影響我們用于判斷模型質(zhì)量的尺度。
誰對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行監(jiān)督?機(jī)器學(xué)習(xí)方法可以是有人監(jiān)督也或者是無人干預(yù)的。區(qū)別不在于算法是否可以為所欲為,而是是否要從具備真實(shí)結(jié)果的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)——預(yù)先確定并添加到數(shù)據(jù)集中以提供監(jiān)管——或者嘗試發(fā)現(xiàn)給定數(shù)據(jù)集中的任何自然形態(tài)。大多數(shù)企業(yè)使用預(yù)測(cè)模型,對(duì)訓(xùn)練數(shù)據(jù)使用監(jiān)督方式,而且通常旨在預(yù)測(cè)給定實(shí)例——郵件、人員、公司或者交易是否屬于某個(gè)有趣的分類——垃圾郵件、潛在買家、信用良好或者獲得后續(xù)報(bào)價(jià)。
如果在開始之前你不是很清楚在尋找什么,那么無人干預(yù)的機(jī)器學(xué)習(xí)方法能夠提供全新的洞察力。無人干預(yù)的學(xué)習(xí)還能夠生成集群與層次結(jié)構(gòu)圖,顯示數(shù)據(jù)的內(nèi)在聯(lián)系,還能夠發(fā)現(xiàn)哪些數(shù)據(jù)字段看起來是獨(dú)立的,哪些是規(guī)則描述、總結(jié)或者概括。反過來,這些洞察能夠?yàn)闃?gòu)建更好的預(yù)測(cè)方法提供幫助。
構(gòu)建機(jī)器學(xué)習(xí)模型是一項(xiàng)反復(fù)練習(xí)的過程,需要清理數(shù)據(jù)和動(dòng)手實(shí)驗(yàn)。目前市場(chǎng)上正在涌現(xiàn)一些自動(dòng)和有向?qū)У哪P凸ぞ?,它們承諾降低對(duì)數(shù)據(jù)科學(xué)家的依賴性,同時(shí)在常見領(lǐng)域獲得最高的投資回報(bào)率。然而這里面真正的差別很可能需要你自己去發(fā)現(xiàn)。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,自動(dòng)編碼器被用于整合多組學(xué)數(shù)據(jù),提取具有代表性的特征。然而,由于數(shù)據(jù)噪聲的影響,生成的模型很脆弱。此外,以往的研究通常集中在單個(gè)癌癥類型,而沒有對(duì)泛癌癥進(jìn)行全面的測(cè)試。
三、算法介紹
1. GBDT(Gradient Boosting Decision Tree):在數(shù)據(jù)分析和預(yù)測(cè)中的效果很好。它是一種基于決策樹的集成算法。
2. Boosting:Boosting指把多個(gè)弱學(xué)習(xí)器相加,產(chǎn)生一個(gè)新的強(qiáng)學(xué)習(xí)器。經(jīng)典的例子有:adaboost, GBDT, xgboost等。如果每一個(gè)弱學(xué)習(xí)器用 來表示的話,那么Boosting的強(qiáng)學(xué)習(xí)器就可以表示為:
通俗的來說就相當(dāng)于把多個(gè)學(xué)習(xí)器串聯(lián)(bagging是并聯(lián))。接下來,我們就介紹一下xgboost算法。
3. XGBoost:
XGBoost本質(zhì)上是一個(gè)GBDT,但是力爭(zhēng)把速度和效率發(fā)揮到極致,所以叫X (Extreme) GBoosted
XGBoost 樹定義:
舉例
預(yù)測(cè)一家人對(duì)口紅的喜愛程度,考慮到年齡相比,年輕人更可能喜歡口紅,男性和女性相比,女性更喜歡口紅,故先根據(jù)年齡大小區(qū)分成年人和未成年人,然后再通過性別區(qū)分開是男是女,逐一給各人在口紅喜好程度上打分,如下圖所示。
X XGBoost的核心算法思想不難,基本就是:
1. 不斷地添加樹,不斷地進(jìn)行特征分裂來生長一棵樹,每次添加一個(gè)樹,其實(shí)是學(xué)習(xí)一個(gè)新函數(shù)f(x),去擬合上次預(yù)測(cè)的殘差。
2. 當(dāng)我們訓(xùn)練完成得到k棵樹,我們要預(yù)測(cè)一個(gè)樣本的分?jǐn)?shù),其實(shí)就是根據(jù)這個(gè)樣本的特征,在每棵樹中會(huì)落到對(duì)應(yīng)的一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)就對(duì)應(yīng)一個(gè)分?jǐn)?shù)
3. 最后只需要將每棵樹對(duì)應(yīng)的分?jǐn)?shù)加起來就是該樣本的預(yù)測(cè)值。
通俗來講,XGBoost是GBDT算法的一種改進(jìn),是一種常用的有監(jiān)督集成學(xué)習(xí)算法;是一種伸縮性強(qiáng)、便捷的可并行構(gòu)建模型的GradientBoosting算法。
原理是:在GBDT目標(biāo)函數(shù)的基礎(chǔ)上加入懲罰項(xiàng),通過限制樹模型的葉子節(jié)點(diǎn)的個(gè)數(shù)和葉子節(jié)點(diǎn)的值來降低模型復(fù)雜度,從而防止過擬合,二分之一是為了求導(dǎo)方便。t是樹的棵數(shù),obj為損失函數(shù)。
(看不懂沒關(guān)系,理解這樣做的目的就好~大體步驟是為了防止過擬合,二階泰勒展開公式計(jì)算,給出了新的樹的劃分標(biāo)準(zhǔn),用的是損失函數(shù)的增量)
目的:找到第t顆樹是如何搭建的所以我們的期望是損失函數(shù)只和第t顆樹有關(guān)系。
XGBoost出現(xiàn)較早,但在交叉學(xué)科,比如生物、化學(xué)、材料等領(lǐng)域的應(yīng)用較少,抓住這個(gè)新穎的方向可能為你的論文增添看點(diǎn),XGBoost支持開發(fā)語言:Python、R、Java、Scala、C++等。
XGBoost 的最佳信息來源是該項(xiàng)目的官方 GitHub 庫:"https://github.com/dmlc/xgboost "。
四、文獻(xiàn)與總結(jié)
第一篇:《Improving protein-protein interactions prediction accuracy using XGBoost feature selection and stacked ensemble classifier》
期刊:《Computers in Biology and Medicine》
影響因子及中科院分區(qū):IF: 3.434,中科院三區(qū)
發(fā)表日期:2020年7月
作者單位:青島科技大學(xué)
1.算法方法
(1)作者提出了一種新的預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用的方法——StackPPI
(2)融合PAAC、AD、AAC-PSSM、Bi-PSSM和CTD提取物理化學(xué)、進(jìn)化和序列信息
(3)采用XGBoost特征選擇方法消除冗余,保留最優(yōu)特征子集
(4)首次利用RF、ET和LR構(gòu)建了堆疊集成分類器。
2.數(shù)據(jù)
訓(xùn)練集:
幽門螺桿菌( Helicobacter pylori),正負(fù)樣本各位1458
酵母菌(Saccharomyces cerevisiae),正負(fù)樣本各位5594
測(cè)試集:
人相互作用對(duì)數(shù)量為1412
老鼠相互作用對(duì)數(shù)量為313
秀麗隱桿線蟲相互作用對(duì)數(shù)量為4013
大腸桿菌相互作用對(duì)數(shù)量為6954
基因評(píng)估數(shù)據(jù)集:
Wnt相關(guān)通路:96個(gè)作用對(duì)
疾病特異性:108個(gè)作用對(duì)
3.結(jié)果解讀:
流程圖:
(1)確定參數(shù)m
首先根據(jù)圖2 (A)可以看出,隨著參數(shù)λ值的變化,兩個(gè)數(shù)據(jù)集的ACC值是不同的。當(dāng)λ =11時(shí),StackPPI s 精準(zhǔn)性(ACC)在幽門螺旋桿菌和釀酒酵母菌數(shù)據(jù)集上達(dá)到一個(gè)全局最大值,而在幽門螺旋桿菌數(shù)據(jù)集上λ =9時(shí)達(dá)到最大值。利用平均精度得到StackPPI (λ =11)中PAAC的最優(yōu)參數(shù)λ。圖2 (B)繪制了不同m下Moreau-Broto、Moran和Geary自相關(guān)描述子ACC的變化。m = 8時(shí),幽門螺旋桿菌ACC最高,m = 9時(shí),啤酒酵母StackPPI最高。通過平均預(yù)測(cè)精度,在StackPPI中設(shè)m = 9, 自相關(guān)描述符AD(Moreau-Broto、Moran和Geary、氨基酸組成位置特異性評(píng)分矩陣)的維數(shù)為21*9=189。
(2)數(shù)據(jù)降維方法的評(píng)估與選擇
對(duì)于不同的數(shù)據(jù)集,采用不同的方法,并通過受試者工作曲線進(jìn)行有效性的評(píng)估。為了選擇最優(yōu)分類算法,將堆疊集成分類器與邏輯回歸(LR)、k -最近鄰(KNN)、AdaBoost、隨機(jī)森林(RF)、支持向量機(jī)(SVM)和XGBoost進(jìn)行比較。其中KNN方法的鄰域設(shè)為5,SVM采用徑向基核,AdaBoost、RF和XGBoost的'n_estimators'分別為500、500和500。所以在本節(jié)中,使用XGBoost作為分類器。為了進(jìn)一步驗(yàn)證StackPPI,作者對(duì)不同的分類器進(jìn)行統(tǒng)計(jì)檢驗(yàn)。報(bào)告了LR、KNN、AdaBoost、RF、SVM、XGBoost與堆疊集成分類器相比在ACC、MCC和AUC指標(biāo)上的p值。
4.總結(jié):
蛋白質(zhì)-蛋白質(zhì)相互作用(Protein-protein interaction, PPIs)在蛋白質(zhì)組水平上參與了大多數(shù)細(xì)胞活動(dòng),這篇文章作者使用機(jī)器學(xué)習(xí)的算法與生物信息學(xué)數(shù)據(jù)結(jié)合探討和預(yù)測(cè)蛋白相互作用。作者提出了一個(gè)名為StackPPI的預(yù)測(cè)框架。首先使用偽氨基酸組成、自相關(guān)描述符(Moreau-Broto、Moran和Geary、氨基酸組成位置特異性評(píng)分矩陣), Bi-gram位置特異性評(píng)分矩陣以及組成、轉(zhuǎn)移和分布對(duì)生物相關(guān)特征進(jìn)行編碼。其次,采用XGBoost算法去除特征噪聲,并通過梯度提升和平均增益進(jìn)行降維;最后,通過StackPPI(一種由隨機(jī)森林、極度隨機(jī)樹和邏輯回歸算法組成的堆疊集成分類器開發(fā)的PPIs預(yù)測(cè)器)對(duì)優(yōu)化后的特征進(jìn)行分析。
第二篇:《Integrating multi-omics data through deep learning for accurate cancer prognosis prediction》
期刊:《Computers in Biology and Medicine》
影響因子及中科院分區(qū):IF: 3.434,中科院三區(qū)
發(fā)表日期:2021年5月
作者單位:中山大學(xué)
1.算法方法:
(1)DCAP方法的體系結(jié)構(gòu):將多組癌癥數(shù)據(jù)的高維特征輸入DAE網(wǎng)絡(luò),得到具有代表性的特征,然后利用這些特征通過Cox模型估計(jì)患者的風(fēng)險(xiǎn)??紤]到臨床難以獲得多組數(shù)據(jù),進(jìn)一步利用mRNA數(shù)據(jù)構(gòu)建XGboost模型來擬合估計(jì)的風(fēng)險(xiǎn)。構(gòu)建的模型用于預(yù)測(cè)獨(dú)立數(shù)據(jù)集中的癌癥患者風(fēng)險(xiǎn)。此外,基于XGboost和差異表達(dá)分析鑒定出的基因,我們鑒定出9個(gè)與乳腺癌預(yù)后高度相關(guān)的預(yù)后標(biāo)志物。
(2)自動(dòng)編碼器
(3)XGBoost特征制作風(fēng)險(xiǎn)模型、
2.數(shù)據(jù):
(1)TCGA癌癥數(shù)據(jù)
(2)GEO癌癥數(shù)據(jù)
3.結(jié)果解讀:
流程圖:
(1)使用數(shù)據(jù)類型與方法的比較與篩選
如表2所示,DCAP在10倍CV和獨(dú)立檢驗(yàn)中獲得了基本相同的c指數(shù)值,對(duì)15種癌癥的平均值分別為0.678和0.665。結(jié)果表明,該方法具有較好的魯棒性。我們進(jìn)一步詳細(xì)介紹了每種組學(xué)類型在DCAP中的貢獻(xiàn)。
如表3所示,單類組學(xué)數(shù)據(jù)中,mRNA表現(xiàn)最好,平均c指數(shù)為0.628,CNV表現(xiàn)最差,c指數(shù)為0.570。miRNA和甲基化分別排在第2位和第3位。一致認(rèn)為,當(dāng)從DCAP中排除一種組型時(shí),mRNA引起的c指數(shù)值下降最大,從0.665下降到0.631,而排除CNV引起的c指數(shù)下降最小。這些結(jié)果表明,mRNA在鑒別高?;颊咧衅鹬钪匾淖饔茫鳦NV的作用最小。平均而言,使用多組學(xué)的預(yù)后預(yù)測(cè)比僅使用mRNA數(shù)據(jù)的預(yù)后預(yù)測(cè)提高了5.9%。
(2)案例研究
作為一個(gè)案例研究,研究人員將作者的方法應(yīng)用于包含最多樣本的乳腺癌(BRCA)。為了驗(yàn)證DCAP-XGB構(gòu)建的乳腺癌預(yù)后預(yù)測(cè)模型,在GEO數(shù)據(jù)庫中收集的三個(gè)外部乳腺癌數(shù)據(jù)集GSE2990、GSE9195和GSE17705上對(duì)模型進(jìn)行了測(cè)試。
如圖3A所示,3個(gè)數(shù)據(jù)集預(yù)測(cè)的高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)組與生存曲線明顯分離,p值均在0.05以下,c指數(shù)相近(0.602、0.605、0.611)。這些結(jié)果表明了作者輕加權(quán)風(fēng)險(xiǎn)預(yù)測(cè)模型的穩(wěn)健性。
根據(jù)DCAP對(duì)高危和低危人群的劃分,我們鑒定出159個(gè)DEGs,其中有45個(gè)風(fēng)險(xiǎn)基因下調(diào),114個(gè)風(fēng)險(xiǎn)基因上調(diào)(圖3B)。159個(gè)DEGs中,有57個(gè)(35.9%)基因經(jīng)過了文獻(xiàn)證實(shí)與乳腺癌相關(guān)。
用XGboost模型選擇的223個(gè)基因作圖,發(fā)現(xiàn)9個(gè)DEGs重疊,其中7個(gè)(77.8%)基因(ADIPOQ、NPY1R、CCL19、MS4A1、CCR7、CALML5和AKR1B10)與乳腺癌相關(guān)(表5)。對(duì)于剩下的2個(gè)基因(ULBP2和BLK),雖然沒有文獻(xiàn)直接證明與乳腺癌預(yù)后相關(guān),據(jù)報(bào)道,ULBP2的誘導(dǎo)與p53的藥理學(xué)激活觸發(fā)抗癌先天免疫反應(yīng)[27]有關(guān),而BLK是一個(gè)真正的能誘導(dǎo)腫瘤的原癌基因,適合于BLK驅(qū)動(dòng)淋巴瘤的研究和體內(nèi)[28]中新型BLK抑制劑的篩選。
4.總結(jié):
如今,基因組信息被廣泛用于癌癥的精確治療。由于個(gè)體類型的組學(xué)數(shù)據(jù)只代表單一觀點(diǎn),存在數(shù)據(jù)噪聲和偏差,因此需要多種類型的組學(xué)數(shù)據(jù)來準(zhǔn)確預(yù)測(cè)癌癥預(yù)后。然而,由于多組學(xué)數(shù)據(jù)中存在大量冗余變量,但樣本量相對(duì)較小,有效整合多組學(xué)數(shù)據(jù)具有一定的挑戰(zhàn)性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,自動(dòng)編碼器被用于整合多組學(xué)數(shù)據(jù),提取具有代表性的特征。然而,由于數(shù)據(jù)噪聲的影響,生成的模型很脆弱。此外,以往的研究通常集中在單個(gè)癌癥類型,而沒有對(duì)泛癌癥進(jìn)行全面的測(cè)試。在這里,作者使用去噪自編碼器來獲得多組數(shù)據(jù)的魯棒表示,然后使用學(xué)習(xí)到的代表性特征來估計(jì)患者的風(fēng)險(xiǎn)。應(yīng)用美國癌癥基因組圖譜(TCGA)中的15個(gè)癌癥樣本,結(jié)果表明該方法比傳統(tǒng)方法平均提高6.5%??紤]到實(shí)際操作中難以獲得多組數(shù)據(jù),作者進(jìn)一步通過訓(xùn)練XGboost模型,僅使用mRNA數(shù)據(jù)擬合估計(jì)的風(fēng)險(xiǎn),發(fā)現(xiàn)模型平均c -指數(shù)為0.627。以乳腺癌預(yù)后預(yù)測(cè)模型為例,分別在基因表達(dá)綜合數(shù)據(jù)庫(Gene Expression Omnibus, GEO)的3個(gè)數(shù)據(jù)集上進(jìn)行獨(dú)立檢驗(yàn),結(jié)果顯示該模型能夠顯著區(qū)分高?;颊吆偷臀;颊?。根據(jù)作者的方法劃分的風(fēng)險(xiǎn)亞組,識(shí)別出9個(gè)與乳腺癌高度相關(guān)的預(yù)后標(biāo)志物,其中7個(gè)基因已被文獻(xiàn)綜述證實(shí)。從而得出結(jié)論,本研究構(gòu)建了一個(gè)準(zhǔn)確、穩(wěn)健的多組學(xué)數(shù)據(jù)綜合預(yù)測(cè)腫瘤預(yù)后的框架。此外,它也是發(fā)現(xiàn)癌癥預(yù)后相關(guān)基因的有效途徑。
第三篇:《XGBoost model for electrocaloric temperature change prediction in ceramics》
期刊:中國科學(xué)院上海硅酸鹽研究所主辦的《npj Computational Materials》
影響因子及中科院分區(qū):IF: 12.3,中科院一區(qū)
發(fā)表日期:2022年7月
作者單位:卡耐基梅隆大學(xué)
1.算法方法:
(1)XGBoost算法
2.數(shù)據(jù):
(1)電熱材料(EC)數(shù)據(jù)集:EC材料主要有三大類:聚合物、陶瓷和聚合物陶瓷復(fù)合材料。作者建立了EC陶瓷的數(shù)據(jù)集,因?yàn)樗鼈兊某煞址N類繁多。作者從現(xiàn)有文獻(xiàn)中提取信息,因?yàn)榇蠖鄶?shù)材料成分沒有出現(xiàn)在知名的材料數(shù)據(jù)庫。該數(shù)據(jù)集包含45篇論文中的97篇材料,可以在GitHub48上以csv格式訪問。數(shù)據(jù)集的快照以及數(shù)據(jù)收集和模型構(gòu)建步驟的流程圖如圖所示。
3.結(jié)果解讀:
(1)數(shù)據(jù)預(yù)處理
經(jīng)過一些預(yù)處理步驟去除了不合格的數(shù)據(jù),研究人員有4406個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)包含表1所列的21個(gè)特征(7個(gè)實(shí)驗(yàn)條件/材料性能特征和14個(gè)混雜特征)。要預(yù)測(cè)的標(biāo)簽是在給定條件下(即T和E)的ΔTEC。
在圖2a中,收集的數(shù)據(jù)被繪制為全尺度表征溫度的函數(shù)。在圖2b中,ΔTEC在0 2k范圍內(nèi)的數(shù)據(jù)點(diǎn)被繪制成T-TCurie的函數(shù)。不同的顏色代表不同的材料組成,標(biāo)記尺寸與所施加的電場(chǎng)成比例。這些EC材料的溫度變化相對(duì)較小,中值為0.36 K,平均值為1.07 K。97個(gè)材料中有3個(gè)最大,遠(yuǎn)遠(yuǎn)超過了第二大最大值13 K。這三種材料被標(biāo)記為異常值,在構(gòu)建模型時(shí)被排除,除非另有規(guī)定。
(2)XGBoost造模
用于ΔTEC預(yù)測(cè)的XGBoost回歸模型(詳見方法XGBoost回歸部分)是通過6912種組合的網(wǎng)格搜索建立的最佳超參數(shù)集(表2)。由于XGBoost無法進(jìn)行外推,只能對(duì)之前在訓(xùn)練歷史中遇到的情況做出合理的預(yù)測(cè),除非特別說明,否則ΔTEC值最低和最高的材料將被迫出現(xiàn)在訓(xùn)練集中。作者構(gòu)建了三個(gè)模型,并根據(jù)其隨機(jī)種子進(jìn)行區(qū)分。雖然,正如預(yù)期的那樣,XGBoost模型預(yù)測(cè)PbZr0.97La0.02(Zr0.95Ti0.05)O3不能比訓(xùn)練集的最大值高于ΔTEC,但它們對(duì)PbZr0.95Ti0.05O3的預(yù)測(cè)能力范圍都高于ΔTEC。這一觀察結(jié)果表明,XGBoost模型從基礎(chǔ)物理中學(xué)習(xí),可以作為定性預(yù)測(cè)和改進(jìn)新材料搜索的有用工具。
(3)驗(yàn)證模型
根據(jù)94個(gè)EC陶瓷在特征空間中的距離,將其分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。首先將EC材料的復(fù)雜特征投影到二維t分布隨機(jī)鄰域嵌入(t-SNE)空間上。然后對(duì)94種材料的投影進(jìn)行k-means聚類。通過將聚類內(nèi)平方和作圖為k的函數(shù),并將“肘部”標(biāo)識(shí)為k,通過肘部法確定最佳k值為3。為所有數(shù)據(jù)分配一個(gè)聚類標(biāo)簽。從每個(gè)聚類中選取75%的材料作為訓(xùn)練數(shù)據(jù),其余25%作為測(cè)試數(shù)據(jù)。
不同數(shù)量的特性用于構(gòu)建模型。分別為表1中的21個(gè)特征、去掉介電常數(shù)的20個(gè)特征,去掉所有混雜特征的7個(gè)特征,去掉介電常數(shù)和所有混雜特征。對(duì)于每個(gè)特性集,使用相同的超參數(shù),但不同的隨機(jī)種子和訓(xùn)練/測(cè)試分割訓(xùn)練了100個(gè)XGBoost模型。R2和RMSE結(jié)果(平均值和標(biāo)準(zhǔn)差)匯總在表3中,其中每一行的數(shù)據(jù)對(duì)應(yīng)100個(gè)模型。
(3)模型對(duì)于雜質(zhì)的特征分析
我們對(duì)XGBoost對(duì) ΔTEC模型進(jìn)行了特征分析,其奇偶圖如圖3所示。
基于雜質(zhì)的特征重要性由XGBoost通過測(cè)量在使用特征的所有分割處的總增益(即精度的提高)來計(jì)算。特征重要性值越高,說明特征越重要。
基于雜質(zhì)的特征重要性如圖4所示。應(yīng)用電場(chǎng)E排名第一,其次是T-Tcurie居里。這些觀察結(jié)果與已知的物理學(xué)一致。16個(gè)混雜功能協(xié)同幫助模型區(qū)分不同的材料。因此,直接解釋單個(gè)特征可能是困難的。XGBoost模型在所有145個(gè)混雜特征(或110個(gè)非零方差特征)中選取了這四組特征。作者的XGBoost模型是嚴(yán)格規(guī)范化的(即,在節(jié)點(diǎn)的拆分中使用了樹修剪和限制),該模型對(duì)包含不相關(guān)的特性并不敏感。通過使用XGBoost ΔTEC模型進(jìn)行預(yù)測(cè),其奇偶圖如圖3所示。
4.總結(jié):
XGBoost梯度提升通過梯度下降算法將預(yù)測(cè)誤差降至最低,并產(chǎn)生一組弱預(yù)測(cè)模型(決策樹)形式的模型。在訓(xùn)練過程中,梯度提升每次增加一個(gè)新的回歸樹,以減少殘差(即模型預(yù)測(cè)與標(biāo)簽值之間的差值)。模型中現(xiàn)有的樹保持不變,這降低了過擬合的速度。作者在本研究中建立了一個(gè)極端梯度Boosting (XGBoost)機(jī)器學(xué)習(xí)模型,根據(jù)陶瓷的成分(由混雜元素屬性編碼)、介電常數(shù)、居里溫度和表征條件,預(yù)測(cè)陶瓷的電熱(EC)溫度變化。
根據(jù)實(shí)驗(yàn)文獻(xiàn),建立了97個(gè)EC陶瓷的數(shù)據(jù)集。通過對(duì)特征空間中的聚類數(shù)據(jù)進(jìn)行采樣,模型對(duì)測(cè)試數(shù)據(jù)的決定系數(shù)為0.77,均方根誤差為0.38 K。特征分析表明,該模型捕捉了有效電導(dǎo)率材料的已知物理特性。混雜特征有助于模型區(qū)分材料,元素電負(fù)性和離子電荷被確定為關(guān)鍵特征。將該模型應(yīng)用于66種電導(dǎo)率未得到表征的鐵電體。確定了在室溫和100kv /cm下EC溫度變化大于2 K的無鉛候選材料。
五、文章小結(jié)
基因組學(xué)是一門跨學(xué)科的生物學(xué)學(xué)科,它可以量化生物體的所有基因,并研究它們對(duì)生物體的相互作用影響,如今機(jī)器學(xué)習(xí)已廣泛應(yīng)用于基因組學(xué)研究,使用已知的訓(xùn)練集來預(yù)測(cè)數(shù)據(jù)類型的結(jié)果,同時(shí)深度學(xué)習(xí)和深度學(xué)習(xí)模型可以預(yù)測(cè)并且降維分析能力更強(qiáng)更靈活,在適當(dāng)?shù)挠?xùn)練數(shù)據(jù)下,深度學(xué)習(xí)可以在人工干預(yù)較少的情況下自動(dòng)學(xué)習(xí)特征和規(guī)律。深度學(xué)習(xí)目前也成功應(yīng)用調(diào)控基因組學(xué)、突變檢測(cè)和致病性評(píng)分,可以提高基因組數(shù)據(jù)的可解釋性,并將基因組數(shù)據(jù)轉(zhuǎn)化為可操作的臨床信息、改進(jìn)疾病診斷方案、了解誰應(yīng)該使用什么藥物和藥物,從而最大限度地減少藥物副作用,最大限度地提高療效,由于涉及的變量太多,人工的統(tǒng)計(jì)分析較慢,而深度學(xué)習(xí)可以幫助縮短過程。
而XGBoost訓(xùn)練速度極快,內(nèi)存友好,可以計(jì)算每個(gè)特征的重要性,這對(duì)于特征篩選、模型可解釋性、模型透明、模型調(diào)優(yōu)等都有好處;XGBoost還可以以明文的形式保存樹模型,方便模型可視化和調(diào)優(yōu),這么多的優(yōu)點(diǎn),趕緊趁它沒有廣泛應(yīng)用在生物信息學(xué)領(lǐng)域的時(shí)候放到你的論文中吧!