今天給大家分享一篇2022年6月28日發(fā)表在Nature Communications (IF:17.694)上,基于網(wǎng)絡的機器學習方法預測癌癥患者的免疫治療反應的文章。
Network-based machine learning approach to predict immunotherapy response in cancer patients
基于網(wǎng)絡的機器學習方法預測癌癥患者的免疫治療反應
一.研究背景
在過去幾年中,免疫檢查點抑制劑(ICIs)極大地改善了癌癥患者的臨床治療。在臨床試驗中,使用ICIs通常比化療產(chǎn)生更少的副作用,具有更持久的治療益處。因此,ICIs已被廣泛使用在不同癌癥中,包括黑色素瘤、膀胱癌和胃癌。然而,盡管ICI治療具有臨床益處,但是只有少數(shù)患者對免疫治療有反應(實體瘤約30%),ICI治療后可能出現(xiàn)毒性。因此,需要一種方法來識別能夠在給藥前檢測免疫治療應答者的生物標記物,提供有關ICIs臨床應用的信息,并提高癌癥患者的生存率。
使用ICIs療法的一個主要挑戰(zhàn)是從免疫療法治療的患者中識別標記物,這些標記物可以有力地預測多個癌癥患者隊列中的藥物反應。例如,監(jiān)測PD1/ PD-L1表達是針對各種癌癥類型的伴隨診斷試驗。因此,許多研究報告了非小細胞肺癌中PD-L1表達與ICI反應之間的正相關。然而,引人注目的是,其他研究報告PD-L1表達與ICI治療反應之間沒有顯著相關性,一些研究甚至表明ICI反應者表現(xiàn)出低PD-L1表達水平。這些先前生物標記物的不一致預測,表明急需識別新的生物標記物,以有力地預測免疫治療反應。Litchfield等人最近發(fā)現(xiàn),傳統(tǒng)的生物標記物只能解釋約60%的ICI反應,這表明新的因素尚未被發(fā)現(xiàn)。
由于從接受免疫治療的患者中識別生物標記物具有強大的挑戰(zhàn),許多最近的研究集中于從未接受ICIs治療的癌癥患者中識別生物標記物。盡管這種方法取得了成功,但這些無監(jiān)督學習方法的一個主要局限性是,免疫治療的特異性標記物可能無法從非免疫治療患者中識別,從而限制了基于ICI的個性化藥物的潛在改進。因此,必須開發(fā)更精準的方法來識別ICI治療患者的生物標記物(例如監(jiān)督學習方法),并最終最大限度地發(fā)揮ICI治療的效益。
網(wǎng)絡生物學為識別穩(wěn)健的生物標志物提供了強有力的手段。基于網(wǎng)絡的方法利用了具有相似表型作用的基因傾向于共同定位于蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡的特定區(qū)域的觀察結果。這種趨勢已被用于識別在預測表型結果方面比使用單基因方法更穩(wěn)健的基因模塊。
研究表明,在相似網(wǎng)絡區(qū)域發(fā)生體細胞突變的患者表現(xiàn)出相似的臨床結果。此外,有文獻報道可以從藥物靶點和疾病基因之間的接近程度來推斷藥物的療效,也可以通過網(wǎng)絡鄰近性,使用患者衍生類器官模型的藥物基因組學數(shù)據(jù)來識別預測癌癥患者總體生存率的藥物反應生物標記物??傊?,有證據(jù)表明,基于網(wǎng)絡的方法提供了預測性和低噪聲的生物標記物,但該方法的有用性尚未被驗證,以預測大樣本癌癥患者對ICI治療的反應。
二.研究方法
研究者建立了一個基于網(wǎng)絡的機器學習框架,該框架可以(i)跨ICI數(shù)據(jù)集進行穩(wěn)健預測,以及(ii)識別潛在的生物標記物。具體來說,可以使用700多個患者樣本中基于網(wǎng)絡的生物標記物的表達水平,有力地預測有應答者和無應答者,包括使用針對PD1/PD-L1信號軸的ICIs治療的黑色素瘤、轉移性胃癌和膀胱癌患者。為了識別強大的藥物反應生物標記物,實施了一種基于網(wǎng)絡的方法,在PPI網(wǎng)絡中識別了位于免疫治療靶點附近的生物學通路。為了衡量該生物標志物的普適性,通過研究交叉驗證以及跨研究預測進行了廣泛測試。發(fā)現(xiàn),基于NetBio的預測比基于ICI靶點(包括PD1、PD-L1或細胞毒性T淋巴細胞抗原4(CTLA4))的表達水平以及與腫瘤微環(huán)境相關的標記物的預測更準確。
三.研究結果
1、基于網(wǎng)絡的免疫治療反應預測
之前的工作報道與抗癌藥物反應相關的生物標記物位于PPI網(wǎng)絡中藥物靶點附近?;谥暗墓ぷ?,研究者通過選擇接近ICI靶點的通路來識別與ICI反應相關的生物學通路(圖1a,b)。使用了STRING PPI網(wǎng)絡(STRING score>700),包括16957個節(jié)點和420381條邊。首先,應用網(wǎng)絡傳播(network propagation),使用ICI靶點(例如,nivolumab的PD1或阿替唑珠單抗的PD-L1)作為種子基因,在網(wǎng)絡上傳播ICI靶點的影響(圖1a)。網(wǎng)絡傳播的一個特點是,距離ICI靶點較近的節(jié)點的影響分數(shù)較高。接下來,選擇了影響分數(shù)高的基因(前200個基因),并確定了富含這些基因的生物通路(圖1b)。然后,使用選定的生物途徑預測免疫治療反應,并將這些途徑視為基于網(wǎng)絡的生物標記物(NetBio)。
為了進行基于ML的免疫治療反應預測,使用NetBio作為輸入特征;作為陰性對照,使用基于基因的生物標記物(即免疫治療靶基因)、基于腫瘤微環(huán)境的生物標記物或從數(shù)據(jù)驅動的ML方法中選擇的途徑(圖1c)。利用輸入特征的表達水平,應用logistic回歸來訓練ML模型。為了測試輸入特征的預測性能,測量了以下方面的預測性能:(i)通過免疫治療后縮小的腫瘤大小測量的藥物反應,或(ii)患者的生存。在使用監(jiān)督學習的ML模型中,使用不同的訓練和測試數(shù)據(jù)集組合來廣泛測量預測性能的一致性。具體來說,進行了(i)研究內(nèi)預測,其中訓練和測試數(shù)據(jù)集是從單個隊列生成的;或(ii)跨研究預測,其中兩個獨立的數(shù)據(jù)集被用作訓練和測試數(shù)據(jù)集(圖1d)。此外,交替使用大量或少量的訓練樣本來衡量各種訓練條件下預測性能的一致性。
2. 研究內(nèi)交叉驗證表明,基于NetBio的ML可以對ICI治療反應和總體生存率做出一致的預測
NetBio標志物可以做出一致的預測性能來預測ICI反應(圖2)。相比之下,當使用藥物靶點表達時,觀察到更強的預測性能。首先使用NetBio或其他已知的免疫治療相關生物標記物(包括藥物靶點)進行了留一交叉驗證(LOOCV)來測量性能。為此,使用了四個免疫治療隊列——兩個黑色素瘤隊列,一個轉移性胃癌隊列和一個膀胱癌隊列。使用NetBio訓練的ML模型在所有四個數(shù)據(jù)集中都做出了準確的預測(圖2a-d)。相比之下,使用藥物靶點表達水平進行的預測不太一致,其中藥物靶點僅在黑色素瘤隊列中準確預測(圖2a),而在其他三個癌癥隊列中不準確(圖2b-d)。值得注意的是,在Liu數(shù)據(jù)集中,使用藥物靶點的表達水平是反向預測的(圖2b)。此外,在三個數(shù)據(jù)集中,使用基于NetBio的ML預測為ICI反應者的患者的總生存期持續(xù)延長;使用藥物靶向表達僅在一個數(shù)據(jù)集中預測總體存活率(圖2e-g)。總之,基于網(wǎng)絡的方法將生物標記物擴展到藥物靶點的網(wǎng)絡鄰居,改進了基于藥物靶點表達水平的預測。
接下來,將NetBio的預測性能與之前確定的其他ICI相關生物標記物進行了比較,發(fā)現(xiàn)在大多數(shù)情況下,NetBio在所有四個癌癥數(shù)據(jù)集中都更好(圖2h-o)。對于單基因標記物,考慮了免疫治療靶點(PD1、PD-L1或CTLA4)的表達水平。對于腫瘤微環(huán)境相關標記物,考慮了與CD8 T細胞比例、T細胞耗竭、CAFs和TAMs相關的基因集。還考慮使用所有單基因標記(GeneBio)或所有腫瘤微環(huán)境相關標記(TME-Bio)進行預測。使用準確性和F1分數(shù)來衡量LOOCV的預測性能,發(fā)現(xiàn)基于NetBio的預測在72個比較中有71個(98.6%)優(yōu)于使用所有其他生物標志物的預測。這些結果進一步證明,使用基于網(wǎng)絡的方法來識別生物標記物可以對癌癥患者的ICI反應作出穩(wěn)健的預測。
3. 使用基于NetBio的ML的跨研究預測可以在其他獨立的黑色素瘤數(shù)據(jù)集中做出一致的預測
精確ML模型的關鍵方面包括:(i)其推廣到新數(shù)據(jù)集的能力和(ii)在可用訓練樣本較少時的一致性能。首先,觀察到當使用獨立數(shù)據(jù)集時,使用NetBio訓練的ML模型可以做出穩(wěn)健的預測,而當使用其他生物標記物時,預測性能較差(圖3)。為了測試ML模型的通用性,使用Gide等人的黑色素瘤數(shù)據(jù)集來訓練ML模型,并在三個獨立的黑色素瘤數(shù)據(jù)集(圖3a)中測試預測性能。為了計算該模型的性能,使用了logistic回歸模型的預測概率。基于NetBio的ML在兩個外部數(shù)據(jù)集中顯示AUC>0.7(圖3b,c),在其余數(shù)據(jù)集中顯示AUC>0.69(圖3d)。與基于NetBio的ML相比,使用其他生物標記物的預測顯示出高度不同的預測性能(圖3b-d)。例如,PD-1表達顯示出較少的最佳性能,最大AUC僅達到0.66(圖3b-d)。此外,盡管在Auslander和Riaz數(shù)據(jù)集中使用T細胞衰竭標記進行的預測非常準確(圖3b,d),但預測性能略優(yōu)于Prat數(shù)據(jù)集中的隨機預期(圖3c)。
4. 基于NetBio的預測優(yōu)于純數(shù)據(jù)驅動的功能選擇方法
與純數(shù)據(jù)驅動ML預測相比,基于NetBio的ML模型能夠持續(xù)優(yōu)化預測性能(圖4)。具體來說,對于數(shù)據(jù)驅動的ML模型,作者選擇了在訓練數(shù)據(jù)集中最能區(qū)分響應者和非響應者的K個特征(其中K等于NetBio的數(shù)量),并使用所選特征訓練ML模型(圖4a)。在11個不同的任務中,發(fā)現(xiàn)基于NetBio的預測比基于ML的特征選擇的特征表現(xiàn)出更好的性能(圖4b)。 此外,在跨黑色素瘤隊列(圖4c)進行預測時,一致觀察到性能改善,這表明網(wǎng)絡傳播選擇有助于減少ML模型的過度擬合。這一觀察結果表明,與純數(shù)據(jù)驅動的特征選擇相比,網(wǎng)絡傳播的特征選擇可以提供穩(wěn)健的特征??傊@些結果進一步表明,可以通過利用基于網(wǎng)絡的生物標記物選擇來識別穩(wěn)健的轉錄組學生物標記物。
5. 基于NetBio的預測闡述TCGA數(shù)據(jù)集中的免疫微環(huán)境
接下來測試了基于NetBio的預測闡述了TCGA數(shù)據(jù)集中的免疫微環(huán)境特征(圖5a)。具體來說,使用Gide或Liu數(shù)據(jù)集(黑色素瘤隊列)在TCGA數(shù)據(jù)集(TCGA SKCM)中預測黑色素瘤患者的ICI反應,Kim數(shù)據(jù)集(胃癌隊列)預測TCGA胃癌(TCGA STAD),和IMvigor210數(shù)據(jù)集(膀胱癌隊列)預測TCGA膀胱癌(TCGA BLCA)患者,并將預測的藥物反應與(i)腫瘤突變負荷(TMB)或(ii)TCGA患者的免疫微環(huán)境相關(圖5a)。
隨后,基于NetBio的預測成功地再現(xiàn)了免疫微環(huán)境(圖5b)。推測Gide和Liu隊列的相關結果具有共同特征,因為它們都與黑色素瘤患者有關。正如所料,它們表現(xiàn)出類似的免疫微環(huán)境特征,包括與白細胞分數(shù)和CD8 T細胞比例高度正相關,與M2巨噬細胞比例高度負相關(圖5b)。為了進一步研究了哪個NetBio通路與免疫細胞比例高度相關。使用Gide數(shù)據(jù)集的ML訓練中最重要的通路特征表明,“I類MHC的抗原呈遞折疊組裝”與CD8T細胞比例呈最高正相關(圖5c)。這一發(fā)現(xiàn)與預期是相符的,因為抗原呈遞細胞或腫瘤細胞的抗原呈遞誘導CD8T細胞浸潤。使用Liu數(shù)據(jù)集時,在最重要的通路中,“FGFR信號通路”與CD8T細胞比例的相關性最高,其中通路的表達水平與細胞比例呈負相關(圖5d). 此外, 研究者還發(fā)現(xiàn)了與胃癌和膀胱癌免疫微環(huán)境一致的NetBio通路。在胃癌中,基于NetBio的預測與濾泡輔助性T細胞比例高度相關(圖5b)。在Kim隊列中最重要的通路中,“有絲分裂G2-G2-M期”的高表達水平與高濾泡輔助性T細胞比例有關。并且之前的一項研究報道,輔助性T細胞的分化受細胞周期路徑的調(diào)節(jié)。在膀胱癌中,發(fā)現(xiàn)基于NetBio的預測與白細胞分數(shù)呈正相關(圖5b)。以上結果表明,在胃癌和膀胱癌中,也可以通過NetBio途徑捕捉免疫微環(huán)境。
6. NetBio通路的表達水平與膀胱癌患者的免疫細胞浸潤有關
在膀胱癌患者中,使用其他基于IHC的結果驗證了趨化和吞噬通路(即趨化因子受體分別結合趨化因子和FcgR激活)與PD-L1治療的膀胱癌隊列中的免疫浸潤相關(圖6)。在IMvigor210數(shù)據(jù)集中使用了不同的免疫表型,包括(i)免疫沙漠(少于10個CD8 T細胞),(ii)排斥(鄰近腫瘤細胞的CD8 T細胞)和(iii)浸潤(與腫瘤細胞接觸的CD8 T細胞)表型(圖6a),并將趨化和吞噬通路的表達水平與免疫表型進行比較(圖6b、c)。與免疫沙漠或排斥表型相比,免疫浸潤表型顯示出最高的通路表達水平(圖6b,c),表明NetBio通路可以捕捉膀胱癌中的白細胞浸潤分數(shù)??傊?,以上結果表明,NetBio可以很好地揭示與免疫治療反應相關的免疫微環(huán)境相關的通路。
7. 將NetBio與ML模型中的腫瘤突變負荷(TMB)相結合,可以優(yōu)化PDL1抑制劑治療膀胱癌患者的預測
雖然高TMB水平與ICI治療的益處增加有關,但ICI應答者和無應答者的TMB水平往往存在顯著重疊,這表明TMB本身并不是ICI應答的充分預測因子。因此,該工作測試了將NetBio與基于TMB的預測器相結合是否可以提高預測性能(圖7a)。將NetBio表達水平與TMB相結合,可以改善使用阿替唑單抗治療的膀胱癌患者的總體生存率預測(圖7b、c)。使用LOOCV預測ICI治療反應,僅使用TMB訓練ML模型,預測有反應組和預測無反應組之間的1年生存率差異為18%(圖7b)。當同時使用TMB和NetBio時,1年生存率差異增加到22.3%(圖7c)。在觀察到預測性能的改善后,研究者試圖確定一個導致預測性能改善的特征,隨后發(fā)現(xiàn)Raf激活途徑在兩個亞組之間(R2R vs R2NR)顯著差異表達(圖7d). 具體來說,根據(jù)組合預測模型預測為無應答者的患者(即R2NR患者)顯示Raf通路激活。從PPI網(wǎng)絡來看,Raf通路的組成部分,包括HRA、KRAS和JAK2和PD-L1直接相鄰(圖7e),表明該通路可能在藥物治療期間發(fā)揮重要作用。
為了進一步檢驗Raf激活通路作為ICI治療生物標記物的潛在有用性,分析了PD-L1表達、TMB和Raf激活成分的表達水平與整體ICI的相關性體外TCGA膀胱癌數(shù)據(jù)集的生存率。具體而言,測試了當(i)PD-L1表達較低(模擬PDL1抑制)和(ii)TMB水平較高時,Raf激活是否影響總體存活率。Raf激活通路對表現(xiàn)出低PD-L1表達和高TMB水平的膀胱癌患者的總體生存率有統(tǒng)計學意義的影響(圖7f)。重要的是,Raf激活通路的高表達與總體生存率低相關,這一發(fā)現(xiàn)與PD-L1抑制劑治療的患者表現(xiàn)出對治療的耐藥性一致(圖7d,f)??傊?strong>以上結果表明:(i)基于網(wǎng)絡的轉錄組生物標記物可以幫助改善基于TMB的免疫治療反應預測;(ii)可以使用基于網(wǎng)絡的方法識別ICI反應生物標記物。
四、總結
總之,該工作為使用ICI治療的精確醫(yī)學開辟了有趣的新研究機會。例如,開發(fā)了一種直接從ICI處理的樣本(即監(jiān)督學習)進行訓練的ML方法,而大多數(shù)最先進的技術使用從非ICI處理的樣本學習的ML模型來預測對ICI處理(即無監(jiān)督學習)的反應。由于監(jiān)督和非監(jiān)督學習使用不同的癌癥患者來訓練ML模型,因此兩種學習方法可以相互補充,在一起使用時可以提高預測性能(例如,半監(jiān)督方法)。具體而言,當監(jiān)督學習(NetBio)和無監(jiān)督學習(Lee等人)的預測彼此之間的相關性較低時,組合預測的性能在所有測試條件下都得到了改善,這表明兩種學習方法都可以學習不同但與ICI治療相關的生物信號。由于免疫治療的生物學結果非常復雜,依賴單個組學特征的方法在預測患者對免疫治療的反應方面存在局限性。將基于網(wǎng)絡的機器學習模型與不同的組學層相結合將獲得更好的臨床結果。隨著更多的腫瘤樣本測序數(shù)據(jù)可用于ICI治療和非ICI治療的癌癥患者,我們可以使用機器學習方法做到更精確的預測。