隨著大數(shù)據(jù)時(shí)代的帶來(lái),機(jī)器學(xué)習(xí)正改變著生物醫(yī)學(xué)的三大領(lǐng)域---臨床診斷、精準(zhǔn)療法和健康檢測(cè)。作為臨床研究的新風(fēng)口---利用機(jī)器學(xué)習(xí)方法構(gòu)建和驗(yàn)證臨床預(yù)測(cè)模型已經(jīng)成為炙手可熱的研究領(lǐng)域。今天小編給大家分享2022年3月一篇機(jī)器學(xué)習(xí)結(jié)合生信的高分文章,由Yiran E. Liu研究團(tuán)隊(duì)在Genome Medicine(IF:11.117)雜志上發(fā)表題為An 8-gene machine learning model improves clinical prediction of severe dengue progression的研究論文。本篇文章作者分析的數(shù)據(jù)是公共數(shù)據(jù)集,總所周知,數(shù)據(jù)質(zhì)量直接影響著臨床預(yù)測(cè)模型的建模效果,從這一點(diǎn)來(lái)看,利用已有的公共數(shù)據(jù)集簡(jiǎn)直就是為沒(méi)有高質(zhì)量數(shù)據(jù)或數(shù)據(jù)收集成本高的研究人員量身定制啊!話不多說(shuō),直接開(kāi)整!
一、研究背景
登革熱病毒(DENV)的全球發(fā)病率持續(xù)上升,局部爆發(fā)的頻率越來(lái)越高。早期識(shí)別 SD 進(jìn)展者并及時(shí)給予支持性護(hù)理對(duì)于降低發(fā)病率和死亡率至關(guān)重要。世界衛(wèi)生組織 (WHO) 在 2009 年推出了新的診斷亞分類:無(wú)警告標(biāo)志的登革熱 (D)、有警告標(biāo)志的登革熱 (DWS) 和重癥登革熱 (SD)。目前的研究有基于宿主反應(yīng)的基因特征和使用臨床特征或基因組變異的機(jī)器學(xué)習(xí)模型。然而,由于預(yù)測(cè)能力不足、缺乏普遍性和/或缺乏簡(jiǎn)約性,沒(méi)有一個(gè)能夠轉(zhuǎn)化為臨床實(shí)踐。因此作者訓(xùn)練了一個(gè) 基于8 基因的XGBoost模型來(lái)預(yù)測(cè) SD 的進(jìn)展,從而能夠降低登革熱的發(fā)病率、死亡率和醫(yī)療保健負(fù)擔(dān)。
二、結(jié)果
1、鑒定與進(jìn)展為嚴(yán)重登革熱相關(guān)的 8 基因組
作者搜索了截至 2019 年 8 月 1 日的 NCBI 基因表達(dá)綜合 (GEO) 存儲(chǔ)庫(kù),通過(guò)查詢“登革熱”獲取通過(guò)陣列或高通量測(cè)序分析感染結(jié)果不同的人類登革熱患者的血液基因表達(dá)的數(shù)據(jù)集。排除與研究無(wú)關(guān)的信息,由此確定了11個(gè)公開(kāi)可用的數(shù)據(jù)集,這些數(shù)據(jù)集存在生物學(xué)、臨床和技術(shù)異質(zhì)性。利用這些數(shù)據(jù)集對(duì)365名登革熱患者的血液轉(zhuǎn)錄組進(jìn)行了分析,其中 199人的癥狀不嚴(yán)重, 166人進(jìn)展為SD,其中作者將單純性登革熱 (DF) 患者分類為“非重癥”,將登革出血熱 (DHF) 或登革休克綜合征 (DSS) 患者分類為“SD 進(jìn)展者”。
接下來(lái),作者使用MetaIntegrator在數(shù)據(jù)集上進(jìn)行了迭代蒙特卡洛采樣的多隊(duì)列分析(圖1A),以識(shí)別非重癥患者和 SD 進(jìn)展者之間的差異表達(dá)基因 (DEG)。 在所有迭代中發(fā)現(xiàn)了 25 個(gè)具有一致效應(yīng)大小的顯著的差異表達(dá)基因(圖1B),在這25個(gè)基因表達(dá)基因中,作者執(zhí)行了貪婪的前向搜索以確定最具預(yù)測(cè)性的基因集,由此得到三個(gè)上調(diào)基因和五個(gè)下調(diào)基因的 8 基因組(圖1C-D)。
2、構(gòu)建模型以預(yù)測(cè)現(xiàn)有隊(duì)列中的嚴(yán)重登革熱進(jìn)展
為了建立一個(gè)可推廣的模型來(lái)預(yù)測(cè) SD 進(jìn)展,作者將年齡作為一個(gè)混雜變量進(jìn)行了檢查。此外由于許多公共數(shù)據(jù)集中缺乏樣本級(jí)別的年齡信息,無(wú)法將年齡作為變量包括在內(nèi)。故作者采用非線性分類器以便更好地學(xué)習(xí)年齡、基因表達(dá)和登革熱嚴(yán)重程度之間潛在的復(fù)雜關(guān)系。
作者利用這八個(gè)基因作為特征訓(xùn)練了 XGBoost 梯度提升樹(shù)模型。其中LTF、UQCRQ、TGFBR3和RASSF5??這四個(gè)基因共同對(duì)模型預(yù)測(cè)準(zhǔn)確度的相對(duì)貢獻(xiàn)為72.9%(圖2A),結(jié)果表明,該模型AUC= 0.891 (95% CI 0.706-1),在Youden閾值下,具有 89.2% (95% CI 84.1–93.8) 的敏感性和 81% (95% CI 75.0–86.7) 的特異性(圖2B),這表明基于8 基因組 的XGBoost 模型具有更高的泛化性。但基于8 基因組 的XGBoost 模型應(yīng)用于不同于模型訓(xùn)練的公共數(shù)據(jù)集時(shí),其效果不佳,故作者同時(shí)評(píng)估了基于20 基因組以及 8 基因組 XGBoost 模型。
3、在登革熱患者的前瞻性隊(duì)列中獨(dú)立驗(yàn)證和與臨床警告信號(hào)進(jìn)行比較
在收集獨(dú)立性數(shù)據(jù)階段,作者前瞻性地在哥倫比亞卡利和布卡拉曼加招募了 377 名 DENV 感染患者,出現(xiàn) SD 的患者被排除在外。
首先作者分析了出現(xiàn)臨床警告信號(hào)預(yù)測(cè)是SD進(jìn)展時(shí)的準(zhǔn)確性。作者在就診時(shí)(即在進(jìn)展為 SD 之前)收集全血樣本,并在整個(gè)感染過(guò)程中跟蹤患者(圖3A)。在就診時(shí)臨床警告信號(hào)預(yù)測(cè)是SD進(jìn)展的敏感性為77.3% (95% CI 58.3-94.1),特異性為39.7% (95% CI 34.7-44.9)(圖3C)。在成人中,臨床警告信號(hào)預(yù)測(cè)是 SD 進(jìn)展的敏感性和特異性分別為 66.7% 和 45.2%。在兒童中,臨床警告信號(hào)預(yù)測(cè)是 SD 進(jìn)展的敏感性和特異性分別為90.0%和37.1%。
總的來(lái)說(shuō),出現(xiàn)臨床警告信號(hào)預(yù)測(cè)是SD進(jìn)展的(陽(yáng)性預(yù)測(cè)值)PPV為7.4% (95% CI 4.3-10.9), NPV(陰性預(yù)測(cè)值)為96.6% (95% CI 93.3-99.3),需要25.4例NNP,其中NNP 被定義為需要檢查以準(zhǔn)確預(yù)測(cè)一名患者將進(jìn)展為 SD 的登革熱患者的數(shù)量。
接下來(lái),作者將基于8基因組的XGBoost模型應(yīng)用到該獨(dú)立前瞻性隊(duì)列中,該模型預(yù)測(cè)隨后進(jìn)展為 SD的AUC 為 0.844(95% CI 0.749-0.938),在 Youden 閾值下,其敏感性為 86.4%(95% CI 68.2-100.0),特異性為 79.7%(95% CI 75.5-83.9),陽(yáng)性和陰性似然比為 4.3(95% CI 3.2–5.5) 和 0.2 (95% CI 0.01–0.4)(圖3C)。與臨床警告信號(hào)相比,8 基因模型的 PPV 和NPV顯著更高,NNP 減少了 80%。 8 基因模型的年齡差異無(wú)統(tǒng)計(jì)學(xué)意義(DeLong p = 0.19),相比之下,之前的 20 個(gè)基因組在成人中的表現(xiàn)比在兒童中的表現(xiàn)更差(DeLong p = 0.0026)。因此,與臨床警告信號(hào)相比,8 基因 XGBoost 模型改善了兩個(gè)年齡組的預(yù)測(cè),并且比 20 基因組更具有普遍性。
此外,鑒于登革熱進(jìn)展快速的性質(zhì),作者檢查了8 基因模型在疾病過(guò)程中的時(shí)間表現(xiàn)(圖3D-F)。8 基因模型可預(yù)測(cè)整個(gè)疾病過(guò)程中收集的樣本的隨后的 SD,此外,對(duì)于SD患者,8 基因模型其進(jìn)展為 SD 的前三天預(yù)測(cè)也是準(zhǔn)確的。
最后,作者利用三個(gè)公共數(shù)據(jù)集按照1997年WHO標(biāo)準(zhǔn)分析了8基因模型的性能,模型性能與 1997 年標(biāo)準(zhǔn)相當(dāng)(AUC = 0.842, 95% CI 0.716-0.968)。
總的來(lái)說(shuō),這些結(jié)果證明了 8 基因模型的早期預(yù)后能力和普遍性,適用于在大型、獨(dú)立、前瞻性登記的隊(duì)列中收集的樣本。
4、臨床特征與 8 基因組模型預(yù)測(cè)概率的關(guān)聯(lián)性
作者接下來(lái)檢查了 8 基因組模型預(yù)測(cè)與相關(guān)臨床特征之間的關(guān)系。8 基因組模型預(yù)測(cè)的概率在先前接觸過(guò) DENV 的患者中顯著高于未接觸過(guò)的患者,但該模型能準(zhǔn)確區(qū)分了原發(fā)性或繼發(fā)性感染的 SD 進(jìn)展者。此外,8 基因模型預(yù)測(cè)與體液積聚呈正相關(guān),但與嘔吐、出血、腹痛或肝腫大無(wú)關(guān),與峰值丙氨酸轉(zhuǎn)氨酶(ALT)和天冬氨酸轉(zhuǎn)氨酶(AST)呈顯著中度正相關(guān),與血小板最低點(diǎn)呈中度負(fù)相關(guān)。
5、8 基因組模型對(duì)其他病毒感染的普遍性
作者評(píng)估了 8 基因組模型是否也可以預(yù)測(cè)其他病毒感染的嚴(yán)重程度。作者確定了四個(gè)獨(dú)立的隊(duì)列,包括 336名感染 SARS-CoV-2、基孔肯雅熱、流感或呼吸道合胞病毒 (RSV) 的患者。結(jié)果表明,8 基因組模型能區(qū)分輕度/中度感染與嚴(yán)重感染 SARS-CoV-2、流感和 RSV,但不能區(qū)分基孔肯雅熱,說(shuō)明其在其他病毒感染中可能具有一定的區(qū)分能力。
三、討論
作者利用公開(kāi)可用的登革熱數(shù)據(jù)集中大量的生物學(xué)、臨床和技術(shù)異質(zhì)性,并確定了一個(gè)與 SD 相關(guān)的 8 個(gè)基因,從中構(gòu)建了一個(gè)基于 XGBoost 的機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)向 SD 的進(jìn)展。隨后在一個(gè)大型、獨(dú)立的前瞻性隊(duì)列中驗(yàn)證了選定的 8 基因模型,結(jié)果表明應(yīng)用于 SD 之前收集的血液樣本,8 基因模型準(zhǔn)確地預(yù)測(cè)了 SD 的進(jìn)展,包括在早期發(fā)熱階段。最后與普遍、非特異性和不夠敏感的臨床警告信號(hào)相比,8 基因模型將 NNP 降低了 80%,證明了轉(zhuǎn)化為用于 SD 預(yù)測(cè)的即時(shí)檢測(cè)的潛力。
采用機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)疾病進(jìn)展的常規(guī)套路可算是被小編總結(jié)出來(lái)了!常規(guī)套路:
1、找到與疾病進(jìn)展相關(guān)的差異表達(dá)基因。
2、基于差異表達(dá)基因采用機(jī)器學(xué)習(xí)的方法構(gòu)建預(yù)測(cè)模型。
3、在獨(dú)立前瞻性隊(duì)列或新的數(shù)據(jù)集中驗(yàn)證模型的準(zhǔn)確性。
4、驗(yàn)證模型的臨床效果。當(dāng)然想要突破常規(guī)套路,就需要添加一些不同的分析,快快學(xué)起來(lái),沖刺高分文章吧!
參考文獻(xiàn)
[1] Liu, Y.E., Saul, S., Rao, A.M. et al. An 8-gene machine learning model improves clinical prediction of severe dengue progression. Genome Med 14, 33 (2022).