大家好呀!今天給大家介紹一篇2021年2月發(fā)表在fronters in Cell and Developmental Biology上的文章。淋巴結(jié)轉(zhuǎn)移是侵襲性癌癥患者腫瘤復(fù)發(fā)和生存的重要預(yù)測因子,淋巴結(jié)轉(zhuǎn)移患者會出現(xiàn)不可控的疾病進(jìn)展和較短的生存期。隨著高通量技術(shù)的發(fā)展,已有大量的表達(dá)數(shù)據(jù)包括mRNA和ncRNA可以用于預(yù)測腫瘤起源和癌癥亞型。本研究作者基于不同特征構(gòu)建SVM分類器,可以用于預(yù)測一系列癌癥的淋巴結(jié)轉(zhuǎn)移狀態(tài)。
Prediction of Lymph-Node Metastasis in Cancers Using Differentially Expressed mRNA and Non-coding RNA Signatures
使用差異表達(dá)mRNA和非編碼RNA特征預(yù)測癌癥的淋巴結(jié)轉(zhuǎn)移
摘要:
準(zhǔn)確預(yù)測癌癥的淋巴結(jié)轉(zhuǎn)移對于下一步的臨床治療十分重要,有益于患者的預(yù)后。mRNA和非編碼RNA廣泛應(yīng)用于構(gòu)建預(yù)測癌癥起源和亞型的分類器。然而,使用這些特征研究癌癥的淋巴結(jié)轉(zhuǎn)移很少,基于不同特征的分類器性能也沒有進(jìn)行比較。本研究通過鑒定淋巴結(jié)轉(zhuǎn)移和未轉(zhuǎn)移的差異表達(dá)mRNA,miRNA和lncRNA作為特征,構(gòu)建預(yù)測不同癌癥淋巴結(jié)轉(zhuǎn)移的分類器。系統(tǒng)的比較了不同特征的SVM分類器的性能。本研究共采用了9種癌癥數(shù)據(jù),mRNA,miRNA和lncRNA分類器的精確度為81%,81.97%和80.78%。本研究提出的特征選擇策略是經(jīng)濟(jì)有效的,可以準(zhǔn)確的識別生物標(biāo)志物,構(gòu)建健壯的分類器預(yù)測腫瘤淋巴結(jié)轉(zhuǎn)移。此外,作者開發(fā)了一個界面友好的網(wǎng)站可以幫助研究人員預(yù)測癌癥的轉(zhuǎn)移風(fēng)險。
流程圖:
材料與方法:
1.癌癥篩選和數(shù)據(jù)收集:首先,作者使用TCGA數(shù)據(jù)庫中臨床TNM分期數(shù)據(jù)篩選患者中存在明確淋巴結(jié)轉(zhuǎn)移狀態(tài)的腫瘤。其中,N-index和T-index為1-4,M-index為0的患者為淋巴結(jié)轉(zhuǎn)移患者,而N-index和M-index為0,T-index為1-4的患者為非淋巴結(jié)轉(zhuǎn)移患者。共有9種癌癥類型存在清晰的淋巴結(jié)轉(zhuǎn)移分類信息。對于這些癌癥類型,作者收集了2491個mRNA,2364個miRNA和2491個lncRNA,包括正常樣本,淋巴結(jié)轉(zhuǎn)移樣本和非轉(zhuǎn)移樣本。
2.數(shù)據(jù)預(yù)處理:對于每類癌癥的數(shù)據(jù)集,使用R包impute處理缺失值。
3.特征選擇:對于這9類癌癥數(shù)據(jù),作者進(jìn)行了3輪特征選擇。第一,篩選淋巴結(jié)轉(zhuǎn)移和非轉(zhuǎn)移樣本中差異表達(dá)的mRNA,miRNA和lncRNA。第二,篩選正常樣本和癌癥樣本中差異表達(dá)的mRNA,miRNA和lncRNA。第三,進(jìn)行PCA分析。
4.分類器構(gòu)建和網(wǎng)站開發(fā):將篩選到的mRNA,miRNA和lncRNA作為預(yù)測癌癥淋巴結(jié)轉(zhuǎn)移的生物標(biāo)志物。本研究使用SVM算法構(gòu)建分類模型,其性能較好。作者的特征選擇策略可以保證獲得較小的特征集且預(yù)測性能較好。將SVM的分類結(jié)果與KNN和RF進(jìn)行比較。對于淋巴結(jié)轉(zhuǎn)移樣本和非轉(zhuǎn)移樣本的不平衡問題,作者采用下采樣的策略來獲得平衡數(shù)據(jù)集。所有的模型進(jìn)行5折交叉驗證來提高預(yù)測性能。作者開發(fā)LNMpredictor網(wǎng)站,可以使研究人員進(jìn)行淋巴結(jié)轉(zhuǎn)移預(yù)測。
結(jié)果:
1.癌癥和樣本統(tǒng)計
本研究作者重點關(guān)注有明確淋巴結(jié)轉(zhuǎn)移狀態(tài)和樣本數(shù)量足夠的癌癥類型,基于SVM構(gòu)建不同癌癥類型的分類器。本研究共選定9種癌癥類群,其中70%為腺癌和鱗狀細(xì)胞癌,20%為尿路上皮癌,包括乳腺,肺,腎,結(jié)腸,膀胱,宮頸,胰腺和直腸等8種器官或組織類型。其中肺源性腺癌和鱗狀細(xì)胞癌的淋巴結(jié)轉(zhuǎn)移風(fēng)險較大。為構(gòu)建分類器,作者選擇了2491個mRNA樣本,2364個miRNA樣本和2491個lncRNA樣本(表1)。
2.特征選擇
鑒定可以準(zhǔn)確預(yù)測淋巴結(jié)轉(zhuǎn)移狀態(tài)的特征是構(gòu)建有效分類器的關(guān)鍵步驟。為實現(xiàn)這一目標(biāo),作者使用淋巴結(jié)轉(zhuǎn)移和非淋巴結(jié)轉(zhuǎn)移之間的差異表達(dá)mRNA和ncRNC作為生物標(biāo)志物,用來區(qū)分患者有無淋巴結(jié)轉(zhuǎn)移。對于miRNA來說,僅鑒定差異表達(dá)miRNA已經(jīng)篩選到了大小合適的特征集(3-27個特征)。而對于mRNA和lncRNA來說,僅鑒定差異表達(dá)mRNA和lncRNA篩選到的特征集較大,平均為591和276個特征。因此,作者隨后進(jìn)行了PCA特征選擇,這一步后篩選到mRNA和lncRNA的特征集大小平均為6和4(表2)。隨后,作者對miRNA的特征集構(gòu)建了聚類熱圖可視化miRNA癌癥樣本的表達(dá)水平(圖1)。
3.分類性能評估
分類器的性能主要取決于提取特征的質(zhì)量和數(shù)量。本研究中,作者選擇腫瘤淋巴結(jié)轉(zhuǎn)移中差異表達(dá)mRNA,miRNA和lncRNA作為分類器的特征。對于miRNA來說,僅使用差異表達(dá)miRNA即可,對于mRNA和lncRNA來說還需要進(jìn)行PCA分析。作者使用SVM訓(xùn)練分類器并生成模型。本研究作者將每類癌癥的淋巴結(jié)轉(zhuǎn)移樣本和非淋巴結(jié)轉(zhuǎn)移樣本進(jìn)行平衡并使用SVM分類算法,并進(jìn)行5折交叉驗證。為綜合評價該算法,作者將SVM分類器與KNN和RF分類器的性能進(jìn)行比較。結(jié)果表明,SVM分類器的性能優(yōu)于KNN和RF分類器,平均提高了2%。表2為9種癌癥不同特征的SVM分類器的5折交叉驗證訓(xùn)練集和測試集準(zhǔn)確率。使用mRNA,miRNA和lncRNA基于SVM分了錢可以正確預(yù)測大部分腫瘤的淋巴結(jié)轉(zhuǎn)移狀態(tài),總體準(zhǔn)確率分別為81%,81.97%和80.78%。此外,作者還開發(fā)了一個LNMpredictior網(wǎng)站,可以幫助研究人員預(yù)測淋巴結(jié)轉(zhuǎn)移風(fēng)險(圖2)。
結(jié)論:
腫瘤中不確定的淋巴結(jié)轉(zhuǎn)移狀態(tài)是影響患者生存和預(yù)后的主要因子,明確的區(qū)域轉(zhuǎn)移預(yù)測有助于靶向腫瘤治療和臨床管理。機(jī)器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于癌癥預(yù)測。本研究,作者使用癌癥患者的臨床數(shù)據(jù)和表達(dá)數(shù)據(jù),將每種癌癥分為正常,淋巴結(jié)轉(zhuǎn)移和非轉(zhuǎn)移樣本。隨后,作者提出一種新的特征選擇策略以鑒定差異表達(dá)mRNA,miRNA和lncRNA作為預(yù)測淋巴結(jié)轉(zhuǎn)移的生物標(biāo)志物。隨后,使用SVM算法構(gòu)建每種患者的分類器并與KNN和RF進(jìn)行比較。結(jié)果表明,SVM分類器的性能較好。并且作者開發(fā)了一個部署SVM分類器的網(wǎng)站,可以輔助研究人員預(yù)測淋巴結(jié)轉(zhuǎn)移狀態(tài)。
參考文獻(xiàn):
Zhang S , Zhang C , Du J , et al. Prediction of Lymph-Node Metastasis in Cancers Using Differentially Expressed mRNA and Non-coding RNA Signatures[J]. Frontiers in Cell and Developmental Biology, 2021, 9:605977.