2019年末突如其來的新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19,簡稱“新冠肺炎”)迅速蔓延,截至2022年1月寫稿時,全球新冠肺炎確診病例已經達到三億以上,死亡病例達五百多萬例,甚至全球每天新增確診人數仍在百萬以上。目前全球已經開展了數量空前的努力來對抗新冠肺炎,其中學術界響應迅速,從病毒的溯源到機理的研究,從流行的預測到臨床疫苗藥物的研發(fā),全球協作,每天都有新發(fā)現,每周都有新進展,科研成果呈井噴式爆發(fā)。但面對如何對新冠肺炎進行有效治療這一問題,目前仍然沒有答案。因此,當前科學界急需在疫苗實現大規(guī)模免疫之前,找到能夠遏制新冠肺炎沖擊的治療方法??紤]到新的治療性化合物的識別、測試和批準所需的時間較長,許多研究人員將重點放在了對現有藥物再利用(drug repurposing,DR)上,來尋找有效的抗COVID-19候選藥物。小編今天要和大家分享的就是一篇21年12月剛剛發(fā)表在Briefings in Bioinformatics(IF:12.812)雜志上的關于整合多組學數據及網絡分析識別抗COVID-19候選藥物的文章,其可以說是一篇針對特定疾病整合多組學數據資源進行藥物篩選的詳細教學。文章內容很豐富,為了方便閱讀小編針對文章的主要內容,進行了藍色文字總結,長話短說,小編帶大家一睹為快。
Multi-omics data integration and network-based analysis drives a multiplex drug repurposing approach to a shortlist of candidate drugs against COVID-19
整合多組學數據及網絡分析推動多重藥物再利用識別抗COVID-19的候選藥物
一.數據及方法
1. 數據資源:研究涵蓋了轉錄組、蛋白質組和代謝組等多組學數據集。具體來說包括4個嚴重急性呼吸系統(tǒng)綜合征冠狀病毒(SARS-CoV-2)感染的細胞系和3個 COVID-19患者肺部活檢組織七個轉錄組數據。此外,研究也收集了65名COVID-19和健康個體的血清進行了蛋白質組學(SerumP)和代謝組學(SerumM)分析,進一步也使用了一套在Human Protein Atlas (HPA) 獲得的336個SARS-CoV-2有關人類蛋白。研究也從IntAct、PHISTO和VirHostNet下載了SARS-CoV-2病原體與宿主之間的PPIs。
2. 多重DR:研究基于轉錄組學分析、GWAS表型關聯分析和病原體宿主相互作用網絡分析,來實現多重DR方法,以生成COVID-19重新利用藥物的初始列表。
下面小編詳細介紹下這三種DR方法:
基于轉錄組的DR:Connectivity Map, L1000CDS2和L1000FWD是三種不同的基于轉錄組學計算DR的工具,這些工具使用來自多個人類細胞系的轉錄表達數據來探索疾病和治療藥物之間的關系。以數據集中得到的異常表達基因作轉錄組特征,將數據集輸入到這三種DR工具中可以預測藥物候選列表。同時CRowd extraction expression of Differential signature (CREEDS)基因和藥物擾動數據庫,CREEDS數據庫包含單藥物和單基因擾動,也可以從DrugMatrix中提取能夠逆轉疾病感興趣基因組表達的藥物。
基于全基因組關聯分析研究(GWAS)及表型的DR:PhenoScanner能夠返回從GWAS catalog和CHARGE等各種在線數據庫收集的性狀和基因型表型關聯??梢詫⑴cSARS-CoV-2等相關的強相互作用體輸入到PhenoScanner中自動提取與表型相關的基因,用于尋找藥物相互作用體,即將這些基因作為藥物基因相互作用數據庫(Drug Gene Interaction Database, DGIdb)的輸入,該數據庫整合和展示了來自論文、數據庫和網絡資源的藥物基因相互作用和基因藥物信息。
基于病原體網絡的DR:主要包括兩部分,1)識別病原體和基于分類的距離:可以從DrugBank的多肽靶標數據文件中提取除智人以外的所有生物的NCBI分類ID,然后使用R語言編寫的自定義腳本和taxize包對該集合進行過濾,并檢索生物體的分類、構建它們的分類樹;2)基于分類距離矩陣的DR:假設就分類距離而言,對特定病原體具有直接抑制作用的藥物更有可能對密切相關的病原體產生類似的作用。因此,可以通過受同一藥物影響的生物體最大距離來捕獲這種抗致病性活性,并通過Shannon指數H(即熵)來捕獲分類單元間距離的多樣性。
3. 多組學數據整合:研究針對來自患者樣本的多組學數據集,開發(fā)了一種基于網絡的多組學數據集成方法。方法主要包括兩部分,第一步是數據預處理:將多個來源的數據以列表的形式進行整合,列表包括兩列對應基因身份和基因得分。第二步是基因與基因網絡與基因優(yōu)化:計算每個基因的特征得分,稱為多源信息增益(MIG),使用R包igraph生成和分析多源信息(Multi-source Information,MI)超級網絡,并編譯MIG評分。
4. 功能分析與通路community識別:研究使用一種基于通路到通路的網絡圖驅動的隨機游走方法--PathWalks揭示連通通路的community,接著對通路網絡的隨機游走進行了比值比(OR)分析,并使用R包igraph將OR值大于1的通路可視化為一個網絡,突出顯示特定的感興趣通路。
5. CoDRes重新排秩及藥物列表聯合評分:研究將先前得到的10個列表中的前50個靶向藥物輸入到計算DR得分的工具CoDReS中,其能夠將最初的藥物排名(可能是DR得分或先驗評分(aS))與分析感興趣疾病得出的藥物功能評分(FS)以及藥物結構評分(StS)相結合,研究最終計算了每種藥物的綜合評分(CoDRes評分)。最后,從每個重新排序的列表中選出前20個藥物進行化學結構多樣性分析。
6. 化學結構多樣性分析與聚類:研究從PubChem,CLUE the Drug Repurposes Hub和文獻中搜索并下載了240種藥物的結構,并刪除了重復條目及沒有發(fā)現結構的藥物和元素(如銅)。然后使用OpenBabel軟件將剩余210種藥物的結構轉換為單個的Structure data file (SDF)庫文件,然后將其輸入到ChemBioServer 2.0工具中,計算其化學和結構相似性的距離矩陣,并對藥物進行聚類。
7. 排秩標準化及篩選:研究將藥物根據排秩進行標準化,在除去重復和結構冗余的藥物后,在185種藥物中選出了最高排名的前65種藥物。
8. 與正在進行的臨床實驗比較:研究從ClinicalTrials.gov網站收集所有與COVID-19相關的臨床研究。然后將臨床研究報道的小分子藥物和從PubChem獲得的藥物的2D結構(SDF文件)輸入到Chembioserver 2.0,以獲得相應的Tanimoto距離矩陣。并使用R進行了分析來確定哪些擬議藥物在臨床試驗中具有相同或類似的化合物。
二.研究的主要內容及結果
首先介紹一下該研究的總體流程,如圖1所示,研究主要分為五個步驟:1)多組學和蛋白質相互作用(PPI)數據的選擇和預處理;2)基于轉錄組學分析、GWAS表型關聯分析和病原體宿主相互作用網絡分析,來實現多重DR方法,以生成COVID-19重新利用藥物的初始列表;3)多組數據集成:開發(fā)“基于網絡的多組學數據整合”方法,以整合來自COVID-19患者的多組數據。4)藥物重排秩:通過整合網絡計算出的疾病關聯得分進行藥物重排秩;5)藥物篩選:計算候選藥物的結構相似性,聚類得分最高的化合物來進行藥物篩選。表1概括了研究使用的數據,而表2對最終得到的12種候選藥物進行了概括。
接下來介紹三個離散型DR方法的應用:基于轉錄組學的DR方法,針對RNA - seq得到的差異表達基因(DEG)集,使用現有的計算工具進行了一系列DR分析。通過輸入由logFC值選擇的前150個差異表達基因,作者獲得了兩個候選列表,一個是DR工具的ensemble,一個是利用CREEDS工具的基于DrugMatrix的再利用特征。GWAS表型關聯的DR,研究將對應40個強SARS-CoV-2相互作用體,以及HPA數據庫中4個突出的蛋白的共44個基因輸入到PhenoScanner數據庫,識別與COVID -19相關的基因和與各種表型相關的基因或基因之間的遺傳關聯。最終,識別出的單核苷酸多態(tài)性(SNP)與83個基因相關,然后作者利用這些基因在DGIdb中尋找潛在的藥物。按照這種方法,作者最終得到了靶向83個基因的58種藥物列表(GW列表)。基于病原體-宿主相互作用網絡的DR,作者根據分類距離矩陣識別能夠直接針對病原體蛋白的抗病毒化合物,這一過程產生了一份DrugBank化合物列表,并整合函數進行評分,最終得到了藥物評分列表(TaxAV)及研究考慮的病原體及其相關藥物的分類樹(圖2)。此外,作者還納入了病原體和宿主蛋白之間已確定的PPIs,來獲得一個關于病原體和人類之間功能相互作用的信息更豐富的評分方案。為此構建了一個病原體-病原體網絡,并根據目標病原體與SARS-CoV-2的接近程度進行評分,結果得到一個包含1178個藥物的評分列表(列表HPAV)。對于TaxAV和HPAV列表,作者選擇了前20的藥物進行結構相似度分析。作者也利用這一基礎網絡進一步篩選靶向宿主蛋白的藥物,最終得到了301種藥物的列表,并選擇了排名前50的藥物(列表HPH)進行藥物重排秩。
這里介紹一下得到多效藥物列表的過程,作者首先整合了來自患者的多組數據,也就是以下數據:(1)分析轉錄組數據得到的以絕對logFC排序的DEGs列表;(2)分析蛋白質組數據得到的以絕對logFC排序的基因列表;(3)分析代謝組數據得到的以p值排序的基因列表;(4) HPA中與病毒進入相關的宿主蛋白的未排序列表;(5)與SARS-CoV-2相互作用的宿主蛋白的未排序列表。然后作者計算了MIG評分,整合基因特異性信息對每個基因進行特征評分,以及基于共表達、遺傳相互作用、物理相互作用和從GeneMANIA中提取的共定位信息得到的基因-基因網絡的局部加權度。最終得到了圖3所示的集成MI網絡以及相關的分數分布。在所有下游功能分析和藥物重新排序中,作者都使用了基于MIG評分的基因排序,該評分代表了基因與疾病的綜合關聯。接著作者使用生成的整合圖突出了與COVID-19相關的通路 communities,使用MIG排秩前300的基因創(chuàng)建了一個疾病顯著關聯基因圖,并在這個圖的指導下使用PathWalks來游走KEGG的通路-通路網絡,其中高頻軌跡突出了廣泛參與COVID-19通路的communities。使用得到的通路頻率,作者僅使用通路網絡的拓撲結構對隨機游走進行OR分析。OR值>1對應相對訪問頻率高,因此更有可能感染COVID-19,其中突出的通路communities如圖4所示。接下來作者基于計算的與目標疾病的相關性對候選藥物進行重新排序,針對宿主蛋白的10個藥物列表中的每一個,按照加權標準化得分,對前50個藥物進行了CoDReS重新排名。然后作者從每個列表中選擇排名前20的CoDReS藥物進行進一步分析,并根據化學結構多樣等對藥物進行篩選。作者使用ChemBioServer 2.0計算了所有候選藥物成對組合的結構距離矩陣,通過層次聚類及消除藥物列表中的結構冗余,最終生成了一個包含185種藥物的列表。最后,作者根據最大標準化排秩 (Max rank)篩選出排名前三分之一的候選藥物,共有65個候選藥物。
在這一部分,作者進一步對上面得到的65種藥物與從clinicaltrials.gov獲得的目前正在進行COVID-19相關臨床試驗的藥物進行了比較。結果發(fā)現11種得分最高的藥物中有5種已經進入臨床試驗。此外,在正在進行的臨床試驗中也發(fā)現了8種標準化評分低一些的藥物。從其余藥物中,通過結構相似性分析,作者又識別出兩種臨床試驗中具有相似化合物的藥物。在文章的最后一部分,作者介紹了整合藥物列表的專家整理和注釋結果,針對65種藥物的整合列表專家精心挑選出了16種藥物(圖5)。篩選主要基于以下三個標準:(a)在3期臨床試驗中藥物展示出了抗COVID-19的效能;(b)藥物藥理證明其能夠直接針對冠狀分子組件;(c)臨床批準的藥物已經在文獻中證明其有活性分子通路涉及SARS-CoV-2生物學機制。最終挑選的16種藥物中有兩種符合第一個標準,這兩種藥物是唯一被證明對COVID-19有效的藥物。此外,有六種藥物符合第二項標準它們在各種檢測中顯示對SARS-CoVs有直接作用。另外有九種藥物滿足第三個標準。研究表明,這些藥物可以有效地靶向SARS-CoV-2的復制周期,以及與病毒編碼的非結構蛋白(NSPs)生成有關的過程,這些非結構蛋白對病毒復制酶復合物的組裝至關重要。這些結果也進一步說明了篩選出的候選藥物的準確性。
到這里這篇文章的主要內容就介紹完了,文章整合多來源多組學的數據利用多重DR方法得到了COVID-19候選藥物的清單。文章敘述詳細,方法清晰,內容豐富,目前,不止新冠肺炎,還有很多復雜疾病同樣困擾人類健康,例如同樣受到關注的癌癥等。這些疾病也有豐富的多組學數據資源,DR方法也同樣可以應用到這些疾病數據中,來進行多組學數據整合分析,實現老藥新用。
參考文獻
Multi-omics data integration and network-based analysis drives a multiplex drug repurposing approach to a shortlist of candidate drugs against COVID-19