文獻分享:NetAct利用轉錄因子活動來建立調控網絡
基因調控網絡,TGF???β induced EMT,巨噬細胞極化
文章導入
利用轉錄因子(TF)調控網絡模型來分析生物動態(tài)過程,是系統(tǒng)生物學的一個經常被人研究的交叉領域。2003年,羅喬杜里實驗組在PNAS發(fā)表了用矩陣分解的方法來估計轉錄因子相互作用強度,并在酵母DNA微陣列找到了細胞周期的調控網絡。2016年,卡利法諾實驗室在Nature Biotechnology發(fā)表了用基因表達推算出的調節(jié)子來計算蛋白活性,并利用mRNA轉錄組測序(RNA-seq)演算出人類 B 細胞轉錄調控網絡。由此可見,通過高通量測序數(shù)據(jù),構建出調控網絡模型可以準確的映射出某些動態(tài)生物過程。
在該研究中,作者提出了NetAct統(tǒng)計模型:利用推算出來的基因活性來創(chuàng)建調控核心網絡模型。在高通量數(shù)據(jù)集上,作者展示了NetAct創(chuàng)建的核心網絡模型,成功分析了上皮細胞間質化(EMT)和巨噬細胞極化等生物模型。
背景簡介
在系統(tǒng)生物學中,創(chuàng)建核心網絡調控來分析生物過程是一個很重要且流行的課題。大體上有兩種方式連構建:一種是先創(chuàng)建小的網絡基于現(xiàn)有的知識和數(shù)據(jù)庫,在利用模擬器來完善網絡,但是效率低沒有辦法用來構建新的網絡模型。第二種是使用生物信息技術,特別是運用高通量測序(尤其是轉錄組測序因),來學習基因和基因的相關性,但是會忽略實際生物學意義上的調制關系。為了平衡這兩種方法利弊,作者創(chuàng)建了NetAct統(tǒng)計平臺,包括了三個亮點:通過過濾被調控的基因的組別,計算每個樣本轉錄因子的活動(activity);利用計算出來的基因活動,來斷定調控因素(調控方向:激活/抑制);再根據(jù)得到的核心調控網絡通過模擬器實驗,來決定最終的調控網絡。
核心步驟解析
NetAct的流程圖如下,主要有三個步驟:1.從獨自建立的包含TF-目標基因關系的綜合集數(shù)據(jù)庫找到有顯著作用(差異表達)的TFs(圖1:a)。作者借鑒了GSEA算法,并且利用自助抽樣法(Bootstrapping)的精髓來找到關鍵的轉錄因子,這些轉錄因子是呈現(xiàn)差異表達的在對比實驗的分組之中。2.第二個步驟是計算轉錄因子的活性(圖1:b)。對每一個找到的差異表達的轉錄因子,NetAct把其調控的靶向基因成員分成了兩組對應激活/抑制兩個調控方向。分組是運用了紐曼的社區(qū)發(fā)現(xiàn)算法(Newman’s community detection algorithm)來分組。進而再在得到的每一個分組中把非信息性的基因成員過濾掉。最后,在利用剩下的基因成員的表達量和調控方向,來推算(希爾方程)出轉錄因子的活動。這也是NetAct算法的核心。3.基于算出來的轉錄因子的活動,NetAct利用互信息演算出核心的調控網絡并且運用模擬器來核實推斷出來的調控網絡的動態(tài)性和準確性(圖1:c)。
圖 1:NetAct流程圖。
主要成果
作者通過NetAct在一個時間序列的DNA微陣列(microarray)數(shù)據(jù)集上,成功的構建了乙型轉化生長因子誘導的上皮細胞間質化(TGF-β-induced EMT)。整體來說,NetAct高亮選擇的轉錄因子和利用RACIPE模擬器軟件精確的解釋了叢E態(tài)到M態(tài)的轉移(圖2:c)。在分析過程中的一個亮點是,計算出來的基因活性要比原來的基因表達量要更具有清晰的變化(圖2:a)。作者發(fā)現(xiàn)這些被選出來轉錄因子大都是被TGF- β誘導所引起的變化,但也有像STAT1/3這樣的鏈接其他細胞信號傳送通路的比如HGF, PDGF, IGF1, 和FGR(圖2:b)。另外,NetAct還找到了DNA損傷應答通路和細胞循環(huán)通路。
圖 2: TGF-β 誘導的 EMT 的網絡建模:使用時間序列微陣列數(shù)據(jù)將 NetAct 應用于人類細胞系的 EMT。
作者還利用NetAct在時間序列的RNA-seq上來分析骨髓源性巨噬細胞。這是一個較為復雜的體系,其中包括干擾素-γ(IFNγ)誘導成為的M1狀態(tài)和白細胞介素-4(IL4)誘導成為的M2狀態(tài),還有被這兩種細胞因子共同影響的M狀態(tài)。原來的基因表達量和計算出來的基因活性在低緯度上,都清晰展現(xiàn)了這三個狀態(tài)(圖:3b-c)作者利用了NetAct詳細闡發(fā)了這三個狀態(tài)的轉化。有意思的是,作者發(fā)現(xiàn)Myc雖然在IL4和IL4+ IFNγ誘導的狀態(tài)下呈現(xiàn)出高表達量,但是Myc的活動(activity)只是在IL4狀態(tài)下比較高。再通過RACIPE來實驗認證,作者驚奇的發(fā)現(xiàn)M態(tài)是介于M1和M2之間的一個光譜混合的一個狀態(tài)(圖3:e)。
圖 3:巨噬細胞極化的網絡建模。 NetAct 在使用 RNA-seq 數(shù)據(jù)的小鼠中通過藥物治療誘導巨噬細胞極化的應用
其他成果
除此之外,作者還花大精力,利用機器學習(machine learning)和數(shù)據(jù)融合(data fusion)的思想,構建了兩個完善的轉錄因子和被調控基因的數(shù)據(jù)庫(對應人類/老鼠不同物種),可供給其他做相關網絡調控學習的研究員。該數(shù)據(jù)庫結合了現(xiàn)有的文獻數(shù)據(jù)庫包括TRRUST, RegNetwork, TFactS, and TRED,基因調控網絡數(shù)據(jù)庫(FONTOM5),調控因子結合目標數(shù)據(jù)庫(比如ChEA 和TRANSFAC),和基序富集分析數(shù)據(jù)庫(RcisTarget)。
參考文獻:
Han, Heonjong, et al. "TRRUST: a reference database of human transcriptional regulatory interactions." Scientific reports 5.1 (2015): 1-11.
Subramanian, Aravind, et al. "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles." Proceedings of the National Academy of Sciences 102.43 (2005): 15545-15550.