導(dǎo)讀
近年來,在高通量技術(shù)的不斷發(fā)展下,大規(guī)模的癌癥組學(xué)數(shù)據(jù)不斷增加。這種快速的數(shù)據(jù)增長(zhǎng)催生了癌癥研究中“大數(shù)據(jù)”的概念,本綜述揭示了大數(shù)據(jù)分析將會(huì)對(duì)醫(yī)療衛(wèi)生保健領(lǐng)域帶來巨大的影響和沖擊。大數(shù)據(jù)通過對(duì)臨床及其他數(shù)據(jù)存儲(chǔ)庫(kù)進(jìn)行數(shù)據(jù)管理和分析獲得前所未有的洞察力。事實(shí)上,大數(shù)據(jù)、生物信息學(xué)和人工智能的結(jié)合已經(jīng)在癌癥生物學(xué)和轉(zhuǎn)化技術(shù)方面取得了顯著的進(jìn)展。
一、常見的數(shù)據(jù)類型
在癌癥研究中有五種基本的數(shù)據(jù)類型:分子組學(xué)數(shù)據(jù)、擾動(dòng)表型數(shù)據(jù)、分子相互作用數(shù)據(jù)、成像數(shù)據(jù)和文本數(shù)據(jù)。分子組學(xué)數(shù)據(jù)描述了細(xì)胞系統(tǒng)和組織樣本中分子的豐度或狀態(tài)。這些數(shù)據(jù)是在癌癥研究中(患者或臨床前樣本)產(chǎn)生的,包括DNA突變(基因組學(xué))、染色質(zhì)或DNA狀態(tài)(表觀基因組學(xué))、蛋白質(zhì)豐度(蛋白質(zhì)組學(xué))、轉(zhuǎn)錄本豐度(轉(zhuǎn)錄組學(xué))和代謝物豐度(代謝組學(xué))等信息(表1)。
二、數(shù)據(jù)資料庫(kù)和分析平臺(tái)
作者為大家提供了三種研究癌癥的數(shù)據(jù)資源。第一類包括癌癥基因組數(shù)據(jù)集的項(xiàng)目的資源(表2);例如,TCGA生成了超過10,000個(gè)癌癥基因組和匹配的正常樣本的轉(zhuǎn)錄組、蛋白質(zhì)組、基因組和表觀基因組數(shù)據(jù),總共有33種癌癥類型。
第二類是經(jīng)過處理數(shù)據(jù)后的存儲(chǔ)庫(kù)(表3),如Genomic Data Commons。
第三類包括Web應(yīng)用程序,這些應(yīng)用程序系統(tǒng)地集成了不同項(xiàng)目的數(shù)據(jù),并提供交互式分析模塊。例如,TIDE框架系統(tǒng)性地從免疫腫瘤學(xué)研究中收集公共數(shù)據(jù),并提供互動(dòng)模塊,以研究腫瘤免疫逃逸和免疫治療反應(yīng)的途徑和調(diào)節(jié)機(jī)制(表4)。
三、數(shù)據(jù)整合分析
盡管數(shù)據(jù)密集型研究可能會(huì)有數(shù)百名患者的組學(xué)數(shù)據(jù),但在癌癥研究中這樣的數(shù)據(jù)規(guī)模仍遠(yuǎn)遠(yuǎn)落后于其他領(lǐng)域,如計(jì)算機(jī)視覺??珀?duì)列聚合和跨模態(tài)整合可以顯著提高大數(shù)據(jù)分析的可靠性和深度(圖1)。
整合跨隊(duì)列數(shù)據(jù):當(dāng)單個(gè)數(shù)據(jù)集不完整時(shí),整合多個(gè)研究的數(shù)據(jù)集可以獲得更為可靠的結(jié)果和新發(fā)現(xiàn)。比如整合跨隊(duì)列數(shù)據(jù)的一個(gè)里程碑的是發(fā)現(xiàn)了TMPRSS2-ERG融合和較少發(fā)生的TMPRSS2-ETV1融合可以作為前列腺癌的致癌驅(qū)動(dòng)因素??珀?duì)列聚合的一般方法是獲取與新的研究主題相關(guān)的或類似的公共數(shù)據(jù)集。然而,使用公共數(shù)據(jù)進(jìn)行新的分析仍然是具有挑戰(zhàn)性的,因?yàn)槊總€(gè)已發(fā)布的數(shù)據(jù)集背后的實(shí)驗(yàn)設(shè)計(jì)都是獨(dú)特的,需要進(jìn)行標(biāo)準(zhǔn)化的處理。
跨模態(tài)數(shù)據(jù)集成:不同數(shù)據(jù)類型的跨模態(tài)集成也是一種很有效的方法,可以最大化從數(shù)據(jù)中獲得的信息,因?yàn)槊糠N數(shù)據(jù)類型中嵌入的信息往往是互補(bǔ)和協(xié)同的??缒B(tài)數(shù)據(jù)集成,例如TCGA等項(xiàng)目,該項(xiàng)目提供同一組腫瘤的基因組、轉(zhuǎn)錄組、表觀基因組和蛋白質(zhì)組數(shù)據(jù)交叉模式整合導(dǎo)致了許多關(guān)于癌癥進(jìn)展相關(guān)因素的新見解。例如,一項(xiàng)研究中,全基因組泛癌癥分析對(duì)27種癌癥的2583個(gè)全腫瘤基因組進(jìn)行了分析,發(fā)現(xiàn)具有許多相互作用的基因(如TP53、TLE4和TCF4TCF4)的啟動(dòng)子發(fā)生罕見突變,這些突變與下游基因的低表達(dá)相關(guān)。這些整合網(wǎng)絡(luò)和基因組學(xué)數(shù)據(jù)的例子證明了這種方法可以在腫瘤發(fā)生中識(shí)別出具有因果作用的體細(xì)胞突變。
四、大數(shù)據(jù)助力臨床轉(zhuǎn)化
許多臨床診斷和決策,如組織學(xué)檢查,本質(zhì)上是醫(yī)生主觀判斷的,而大數(shù)據(jù)方法可以提供系統(tǒng)和客觀的補(bǔ)充選項(xiàng),以指導(dǎo)診斷和臨床決策。
大數(shù)據(jù)研究向臨床轉(zhuǎn)化的一個(gè)主要重點(diǎn)是開發(fā)用于預(yù)測(cè)疾病風(fēng)險(xiǎn)的生物標(biāo)志物。與通過生物機(jī)制和經(jīng)驗(yàn)觀察發(fā)現(xiàn)的生物標(biāo)志物不同,大數(shù)據(jù)衍生的數(shù)據(jù)分析了許多患者和隊(duì)列的基因組數(shù)據(jù),再生成用于臨床分析的基因特征。這些預(yù)測(cè)因子主要幫助臨床醫(yī)生確定是否需要進(jìn)行侵入性的治療,從而以減少不必要的治療和副作用。從大數(shù)據(jù)中分析而來的診斷性生物標(biāo)志物測(cè)試的例子如對(duì)雌激素受體(ER)或孕激素受體(PR)陽性乳腺癌患者的預(yù)后分析發(fā)現(xiàn):?jiǎn)为?dú)使用輔助內(nèi)分泌治療即可為ER/PR陽性、HER2陰性的早期乳腺癌患者帶來足夠的臨床益處。
全基因組和多模態(tài)數(shù)據(jù)已開始在前瞻性臨床試驗(yàn)中發(fā)揮作用。例如,WINTHER試驗(yàn)根據(jù)來自實(shí)體腫瘤活檢的DNA測(cè)序或RNA表達(dá)數(shù)據(jù),前瞻性的對(duì)晚期癌癥患者進(jìn)行匹配治療。組學(xué)數(shù)據(jù)與這種匹配治療通常會(huì)導(dǎo)致超適應(yīng)癥藥物使用。WINTHER研究得出結(jié)論:這兩種數(shù)據(jù)類型對(duì)于有利于改善治療和患者結(jié)局。此外,在臨床效益的治療方面,DNA測(cè)序和RNA表達(dá)之間也沒有顯著差異。其他類似的試驗(yàn)已經(jīng)證明了在全基因組基因組學(xué)或轉(zhuǎn)錄組學(xué)數(shù)據(jù)的基礎(chǔ)上對(duì)匹配患者使用靶向治療(超適應(yīng)癥)的實(shí)用性(圖2)。隨著分子數(shù)據(jù)指導(dǎo)的臨床試驗(yàn)初步成功,新興的臨床研究還收集bulk測(cè)序之外的數(shù)據(jù),如使用各種藥物治療后的腫瘤細(xì)胞死亡反應(yīng)的scRNA數(shù)據(jù)可以研究治療反應(yīng)和耐藥性機(jī)制。除腫瘤樣本產(chǎn)生的組學(xué)數(shù)據(jù)外,整合跨模態(tài)的數(shù)據(jù)也是改善治療的潛在策略。其中一個(gè)有潛力方向是與合成致死有關(guān)的研究和應(yīng)用,一旦該方面的研究與腫瘤轉(zhuǎn)錄組學(xué)結(jié)合,可準(zhǔn)確評(píng)估藥物靶點(diǎn)的重要性,并預(yù)測(cè)出許多抗癌治療的臨床結(jié)果,包括靶向治療和免疫治療。預(yù)計(jì)這種新的數(shù)據(jù)模式和分析將為設(shè)計(jì)臨床試驗(yàn)提供新的方法。
基因組學(xué)數(shù)據(jù)集,如基因表達(dá)水平或突變狀態(tài),通??梢栽诨蚓S度上相互對(duì)齊。然而,臨床診斷中的數(shù)據(jù)類型,如成像數(shù)據(jù)或文本報(bào)告,可能不無法直接進(jìn)行跨樣本對(duì)齊。而基于深度神經(jīng)網(wǎng)絡(luò)的人工智能方法是將這些數(shù)據(jù)類型用于臨床應(yīng)用的一種新興方法(圖3)。
人工智能在分析成像數(shù)據(jù)方面潛力很大,最常見的方法是臨床結(jié)果的預(yù)測(cè)、腫瘤檢測(cè),以及根據(jù)H&E染色的組織進(jìn)行分級(jí)。除了組織病理學(xué),放射學(xué)是人工智能成像分析的另一種應(yīng)用。目前已經(jīng)證明使用3D計(jì)算機(jī)斷層掃描體積的深度卷積神經(jīng)網(wǎng)絡(luò)可以預(yù)測(cè)肺癌風(fēng)險(xiǎn),其準(zhǔn)確性與經(jīng)驗(yàn)豐富的放射學(xué)家的預(yù)測(cè)相當(dāng)。新的人工智能方法開始在生物學(xué)方面發(fā)現(xiàn)中發(fā)揮作用。例如,對(duì)結(jié)直腸癌生存預(yù)測(cè)相關(guān)的聚類顯示,高風(fēng)險(xiǎn)生存預(yù)測(cè)與腫瘤-脂肪特征相關(guān),其特征是與脂肪組織相鄰的腫瘤細(xì)胞分化較差。雖然這種關(guān)聯(lián)的分子機(jī)制尚不清楚,但這項(xiàng)研究提供了一個(gè)發(fā)現(xiàn)成像特征的例子,這可以幫助癌癥生物學(xué)家繼續(xù)研究新的疾病機(jī)制。
開發(fā)一種新藥成本高,時(shí)間長(zhǎng),失敗率也很高。新療法的開發(fā)是大數(shù)據(jù)應(yīng)用的一個(gè)有前景的方向。大數(shù)據(jù)分析還被用于發(fā)現(xiàn)藥物的新用途從而治療新疾病。比如一項(xiàng)研究通過挖掘4000多萬份文件,在疾病、組織、基因、通路和藥物之間創(chuàng)建12億個(gè)邊緣的網(wǎng)絡(luò),結(jié)果顯示:vandetanib和everolimus的組合可以抑制ACVR1,這可以作為神經(jīng)膠質(zhì)瘤的一種治療方式。最近還有研究結(jié)合了藥理學(xué)數(shù)據(jù)和人工智能(AI),設(shè)計(jì)了新藥?;诂F(xiàn)有DDR1抑制劑和化合物文庫(kù)的信息,使用深度生成模型設(shè)計(jì)新的小分子干擾受體酪氨酸激酶DDR1,其中主要候選物在小鼠中表現(xiàn)出較好的藥代動(dòng)力學(xué)(圖4)。
五、挑戰(zhàn)和未來展望
大數(shù)據(jù)的進(jìn)步是有目共睹的,但在癌癥研究和臨床中的大數(shù)據(jù)應(yīng)用方面仍然存在相當(dāng)大的挑戰(zhàn)。組學(xué)數(shù)據(jù)通常存在隊(duì)列間的測(cè)量不一致性、顯著的批次效應(yīng)和對(duì)特定實(shí)驗(yàn)平臺(tái)的依賴性。這種一致性的缺乏是臨床轉(zhuǎn)化的主要障礙。除了這些技術(shù)挑戰(zhàn)之外,還存在結(jié)構(gòu)性和社會(huì)性挑戰(zhàn),這可能阻礙整個(gè)癌癥數(shù)據(jù)科學(xué)領(lǐng)域的進(jìn)步。
數(shù)據(jù)可用性:癌癥數(shù)據(jù)科學(xué)面臨的一個(gè)關(guān)鍵挑戰(zhàn)是數(shù)據(jù)和代碼的可用性不足。最近的一項(xiàng)研究發(fā)現(xiàn),在公共數(shù)據(jù)和源代碼可用性方面,生物醫(yī)學(xué)領(lǐng)域(基于機(jī)器學(xué)習(xí)的研究)與其他領(lǐng)域的研究相比效果較差。有時(shí),即使已經(jīng)解決安全和隱私問題,已發(fā)表的癌癥基因組數(shù)據(jù)的臨床信息也不能提供或不能完整提供。造這個(gè)問題也可能與數(shù)據(jù)發(fā)布策略和數(shù)據(jù)管理成本有關(guān)。盡管許多期刊要求公開發(fā)布數(shù)據(jù),但這些往往是通過將數(shù)據(jù)存儲(chǔ)到存儲(chǔ)庫(kù)中,由于知識(shí)產(chǎn)權(quán)和各種其他考慮,這些數(shù)據(jù)庫(kù)需要作者和機(jī)構(gòu)批準(zhǔn)才能訪問。此外,存儲(chǔ)的數(shù)據(jù)可能缺少關(guān)鍵信息,如單細(xì)胞測(cè)序數(shù)據(jù)中缺失的細(xì)胞條形碼或組織病理學(xué)數(shù)據(jù)中缺失的低分辨率圖像
數(shù)據(jù)規(guī)模差距:如前所述,可用于癌癥治療的數(shù)據(jù)集比其他領(lǐng)域的數(shù)據(jù)集要小得多。造成這種差距的一個(gè)原因是:醫(yī)療數(shù)據(jù)的生成依賴于受過專業(yè)培訓(xùn)的科學(xué)家。為了縮小數(shù)據(jù)規(guī)模的差距,我們需要更多的投資來注釋醫(yī)療數(shù)據(jù)和患者組學(xué)數(shù)據(jù)。罕見癌癥尤其有缺乏臨床前模型、臨床樣本和專門資金的問題。此外,生物醫(yī)學(xué)數(shù)據(jù)的可用性通常受到人群的遺傳背景的限制。例如,在東亞、歐洲人群中一些基因突變的頻率和美國(guó)人群中可能有所不同
六、全文總結(jié)
人類已進(jìn)人大數(shù)據(jù)時(shí)代。大數(shù)據(jù)科學(xué)作為一個(gè)橫跨信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、生物醫(yī)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科方向正在逐漸形成,并已成為科學(xué)研究熱點(diǎn)。在不久的將來,大數(shù)據(jù)分析的應(yīng)用將會(huì)快速,廣泛的涌現(xiàn)在整個(gè)醫(yī)療保健機(jī)構(gòu)和醫(yī)療保健行業(yè)。對(duì)于發(fā)規(guī)模的腫瘤數(shù)據(jù),通過跨模式整合、跨隊(duì)列聚合和數(shù)據(jù)重用來促進(jìn)癌癥領(lǐng)域的生物醫(yī)學(xué)突破,并且利用這些方法分析腫瘤數(shù)據(jù)也取得了非凡的進(jìn)展。
參考文獻(xiàn)
1. Jiang P, Sinha S, Aldape K, Hannenhalli S, Sahinalp C, Ruppin E. Big data in basic and translational cancer research. Nat Rev Cancer Sep 5 2022.doi:10.1038/s41568-022-00502-0 .