癌癥轉(zhuǎn)移是指腫瘤細胞從原發(fā)部位擴散,通過侵襲淋巴管和血管在原發(fā)部位以外的其他部位繼續(xù)生長形成腫瘤的過程。轉(zhuǎn)移是癌癥發(fā)病和死亡的主要原因,據(jù)報道轉(zhuǎn)移死亡是所有癌癥死亡的90%。許多癌癥患者在治療效果較好的情況下預后較好,但是一旦發(fā)生轉(zhuǎn)移將增加后續(xù)診斷和治療的困難。為了提高癌癥治愈率,有效的預測癌癥患者是否發(fā)生轉(zhuǎn)移十分重要。因此,今天小編給大家介紹一篇2022年發(fā)表在Briefing in Bioinformatics上的文章,這篇文章作者提出一種嵌入圖學習(GL)模塊的圖卷積網(wǎng)絡——glmGCN,可以準確預測癌癥的遠端轉(zhuǎn)移。下面,就讓我們來一起學習一下吧~
流程圖:
數(shù)據(jù)
作者從TCGA數(shù)據(jù)庫下載4種癌癥類型的FPKM數(shù)據(jù)集,分別為宮頸鱗狀細胞癌CESC(397例),胃癌STAD(407例),胰腺癌PAAD(182例)和膀胱癌BLCA(427例)。共包括19814個mRNAs和14851個lncRNAs。差異表達分析后,CESC數(shù)據(jù)集得到1515個DEGs,STAD得到4122個DEGs,PAAD得到116個DEGs,BLCA得到2767個DEGs。由于各個數(shù)據(jù)集中轉(zhuǎn)移樣本和未轉(zhuǎn)移樣本不平衡,因此作者使用SMOTE對數(shù)據(jù)集進行平衡,各個數(shù)據(jù)集的樣本數(shù)量如表1所示。
方法
1.圖學習模塊
作者根據(jù)STRING數(shù)據(jù)庫中的PPI網(wǎng)絡和各個數(shù)據(jù)集的DEGs構(gòu)建每種癌癥類型的PPI網(wǎng)絡。根據(jù)PPI網(wǎng)絡構(gòu)建鄰接矩陣A,其中如果兩個基因沒有互作邊的話則對應A中的位置為0,如果兩個基因存在互作邊的話則對應A中的位置為打分值。作者基于基因表達矩陣G和鄰接矩陣A構(gòu)建非線性函數(shù)S。作者根據(jù)損失函數(shù)優(yōu)化權(quán)重向量α和Ppj,隨后,權(quán)重矩陣使用損失函數(shù)進行優(yōu)化。
2.圖卷積網(wǎng)絡
本研究提出方法的創(chuàng)新之處在于在GCN上添加了GL層,GL層學習圖表示S并將S用于圖卷積層。圖卷積模型包括一個輸入層,多個隱藏層和一個輸出層。其中隱藏層由一個GL層,兩個圖卷積層和多個全連接層組成。在GL層和卷積層之后對參數(shù)進行優(yōu)化,使用變平層將特征圖轉(zhuǎn)化為一維向量。使用多個全連接層映射分布式特征,使用softmax進行最終預測。
結(jié)果
1.特征可視化
首先,作者使用T-SNE和glmGCN的最后一層全連接層提取出的特征對CESC和STAD數(shù)據(jù)集進行可視化(圖1),從圖中可以看出使用原始特征不能準確區(qū)分轉(zhuǎn)移樣本和非轉(zhuǎn)移樣本,而使用glmGCN提取的特征可以將兩類高度分離。
2.與GCN方法比較
作者將glmGCN模型的結(jié)果與GCN模型的結(jié)果進行比較,兩個模型的區(qū)別在于GCN直接使用PPI網(wǎng)絡表示基因的互作而glmGCN在GCN網(wǎng)絡上添加GL層來得到新的基因互作關系。兩個模型的結(jié)果如表2和表3所示,對于CESC數(shù)據(jù)集來說,glmGCN的準確率(ACC),特異性(SEN),F1-SCORE和AUC分別提高了0.61%,1.21%,0.62%和0.0017。對于STAD數(shù)據(jù)集來說,glmGCN的ACC,SEN,F1-SCORE和AUC分別提高了0.77%,1.64%,0.83%和0.0008。此外,圖2中g(shù)lmGCN的ROC曲線略高于GLCN。
3.改進的GL層的影響
其次,作者將glmGCN與GCN添加普通GL層(GCNGLY)進行比較,結(jié)果見表4,表5和圖3。從圖中可以看出,作者的算法在CESC和STAD數(shù)據(jù)集上均取得了更好的性能。
4.與深度神經(jīng)網(wǎng)絡(DNN)比較
第三,作者將glmGCN與DNN進行比較,結(jié)果見表6和表7。對于CESC數(shù)據(jù)集來說,幾乎所有指標都有提高。對于STAD數(shù)據(jù)集來說,ACC提高了3.88%,SEN提高了8.32%,F(xiàn)1 SCORE提高了4.25%,AUC提高了0.0313。ROC曲線同樣表明glmGCN模型的性能優(yōu)于DNN(圖4)。
5.與non-deep方法比較
第四,作者將glmGCN模型與機器學習方法如SVM,LR和RF等方法進行比較。結(jié)果如表8,表9和圖5所示。結(jié)果表明,對于CESC和STAD數(shù)據(jù)集來說RF的ACC和AUC最高分別為98.74%,94.95%和99.09%和98.28%。對于CESC來說,glmGCN的結(jié)果有些許提高,而對于STAD來說,glmGCN的ACC提高了2.44%,AUC提高了0.01。
6.其他數(shù)據(jù)集的驗證
最后,作者在PAAD和BLCA兩個數(shù)據(jù)集進一步驗證glmGCN模型的性能。與CESC和STAD數(shù)據(jù)集的分析類似,作者使用三種方法進行了比較分別為基于GCN的方法,基于DNN的方法和non-deep方法。PAAD和BLCA數(shù)據(jù)集的比較結(jié)果如表10,表11和圖6所示。對于PAAD數(shù)據(jù)集來說,non-deep方法的準確率高于基于GCN的方法和基于DNN的方法。除了glmGCN的結(jié)果外,ACC和AUC最高分別為78.53%和0.8471,相較于glmGCN來說,glmGCN分別提高了1.03%和0.0052。對于BLCA數(shù)據(jù)集來說,基于GCN的方法由于non-deep方法和基于DNN的方法。除了glmGCN的結(jié)果外,ACC和AUC最高分別為91.39%和0.9532,相較于glmGCN來說,glmGCN分別提高了0.65%和0.013。為了保證作者提出方法的可靠性和穩(wěn)定性,作者使用了10折交叉驗證且重復三次。
結(jié)論
在本研究中,作者提出glmGCN算法用于鑒定癌癥的遠端轉(zhuǎn)移樣本。作者將glmGCN應用于4種癌癥類型并與基于GCN的方法,基于DNN的方法和non-deep方法進行比較來驗證glmGCN的準確性??偟膩碚f,根據(jù)glmGCN提取的特征可以大致區(qū)分轉(zhuǎn)移樣本和非轉(zhuǎn)移樣本。此外,對于分類性能來說,glmGCN的性能優(yōu)于基于GCN的方法,基于DNN的方法和non-deep方法。這篇文章作為基于深度學習的分類算法研究來說,對小編的啟發(fā)很大,小伙伴你有多少收獲呢~