生物信息學(xué),簡稱生信,這位久仰大名的“朋友”相信每一位奮戰(zhàn)在生命科學(xué)或醫(yī)學(xué)科研領(lǐng)域的同學(xué)們都不陌生,或許你是生信行家(投去崇拜的目光~);或許你同我一樣在慢慢走近它,開始了解它(同道中人,握握手~);或許你對生信是霧里看花,水中望月,有需求但不知從哪里下手的小白(說不定我可以幫到你~)。我今天結(jié)合個人科研經(jīng)歷和大家分享一下我是怎樣熟悉這位“朋友”,以及它是怎樣幫助我的,希望能夠?qū)δ阌幸稽c啟發(fā),少走彎路就是加快科研進(jìn)度,對吧~
1,概念
我們先了解一下到底什么是生信,生物信息學(xué)是一門利用計算機(jī)技術(shù)研究生物系統(tǒng)規(guī)律的學(xué)科,是分子生物學(xué)與信息技術(shù)的結(jié)合體。生物信息學(xué)的研究材料和結(jié)果就是形式各樣的生物學(xué)數(shù)據(jù),其研究工具是計算機(jī),研究方法包括對生物學(xué)數(shù)據(jù)的搜索(收集和篩選),處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
2,緣由
就我自己的經(jīng)歷來講,從碩博到科研崗位工作整整8年的時間里,眼看著生信迅猛發(fā)展,剛開始的時候總覺得與自己關(guān)系不大,認(rèn)為術(shù)業(yè)有專攻,我與生信的關(guān)系是不同學(xué)科間科研方法和關(guān)注方向不同而已,這一觀念在我自己做多組學(xué)聯(lián)合分析時,被狠狠擊碎。我至今都記得面對大量數(shù)據(jù)無從下手的茫然無措,那時生信于我,是云里霧里的一座高山,近在咫尺卻找不到攀登的路,對于自己認(rèn)知里組學(xué)做完就發(fā)文章萬事大吉的想法至今都覺得無地自容。我曾跟同事提起過我的困惑,得到的答案是“公司不是會反饋結(jié)果的么?”但相信有過類似經(jīng)歷的同學(xué)們會知道,檢測公司反饋給我們的初步分析其實遠(yuǎn)遠(yuǎn)不夠我們發(fā)文章所用,技術(shù)支持提供的數(shù)據(jù)是程序式,模板式,而非個性化的。而且我們應(yīng)該對自己手里的數(shù)據(jù)有整體的把握和了解,說到底,數(shù)據(jù)是要深度挖掘分析的,沒有人比你更了解你自己的課題細(xì)節(jié),由此我開始嘗試走近生信。
3,需求
生信是一片新的天地,要在自己原有的知識范圍以外開疆拓土,首要任務(wù)是要知道自己該從哪里做起,我總結(jié)了以下幾點我對生信需求:
(1)分析:原始數(shù)據(jù)和標(biāo)準(zhǔn)化數(shù)據(jù),以及后續(xù)數(shù)據(jù)的進(jìn)一步處理,數(shù)據(jù)經(jīng)歷了哪些運算,使用什么算法,是否是合理可行,自己完全沒頭緒。
(2)繪圖:目前有很多數(shù)據(jù)分析平臺為迎合使用者的需求,有現(xiàn)成的小程序可分析作圖,簡便快捷,但僅適用于比較簡單的分析,如韋恩圖,熱圖,主成分分析等基礎(chǔ)分析,我最初的分析作圖多數(shù)得益于這些平臺工具,但有時圖片清晰度受限。
(3)思路:生信不僅僅是統(tǒng)計數(shù)據(jù)和作圖那么簡單,思路是靈魂,記得我向同學(xué)求助過,他很認(rèn)真幫我將差異基因整理出來發(fā)給我,然后一個問題拋回來,我就又摔了跟頭,他說“接下來怎么做就看你想要什么了”原諒我又是一臉懵...好吧,我接著查找文獻(xiàn)學(xué)習(xí)思路,結(jié)論是:要學(xué)的東西真是太多了...
4,經(jīng)驗
在經(jīng)歷了閱讀文獻(xiàn),嘗試現(xiàn)有平臺,請教專業(yè)人士以及多次試錯之后,總結(jié)經(jīng)驗如下:
(1)閱讀文獻(xiàn):
在實驗實施初期要大量閱讀相關(guān)文獻(xiàn),開始學(xué)習(xí)思路設(shè)計,數(shù)據(jù)整理以及分析方法,因為后續(xù)數(shù)據(jù)整理分析過程需要投入大量的時間和精力,而在實驗之初多儲備相關(guān)知識,利于規(guī)劃整個課題的架構(gòu)(體量,深度,關(guān)注點),以及把控實驗細(xì)節(jié)(對照,分組,樣本量),做到心中有數(shù),有的放矢,文章邏輯就隨之而來了。希望你在收到實驗數(shù)據(jù)那一刻起,內(nèi)心是興奮又從容的。
(2)準(zhǔn)備充分:
①如果你是在讀碩博,導(dǎo)師交給你的其他工作任務(wù)沒有特別繁重,希望你嘗試學(xué)習(xí)R語言和python,從入門開始,然后進(jìn)階完成一些數(shù)據(jù)處理和作圖(RNA-seq的表達(dá)矩陣、WES的變異結(jié)果等),當(dāng)通過自己努力獲得的那份踏踏實實的成就感時,你會發(fā)現(xiàn)生信這座大山不再飄渺,你已站在半山腰。當(dāng)然,學(xué)習(xí)期間的困難一定不比成就感少,建議多查資料,甚至你可以搜到現(xiàn)成的R包。多請教,你的困惑可能是在專業(yè)人士指導(dǎo)下轉(zhuǎn)換下思路、算法,或是修改一個詞,一個符號,但對于你必定是受益良多。
②如果你是專職科研人員或在現(xiàn)階段做科研的臨床醫(yī)生,剛剛涉足組學(xué)研究,時間精力都有限的情況下,可以通讀典型文獻(xiàn),初期以了解組學(xué)知識和研究思路為基礎(chǔ),弄清楚公司給的檢測報告,以及用到分析方法的解釋說明,這也是很好的學(xué)習(xí)資料(最好在樣本送出前或付款前詳細(xì)咨詢)。做好這些準(zhǔn)備,在后續(xù)數(shù)據(jù)分析以及與分析人員溝通需求的時候,會非常有效率。
(3)巧用工具:
①數(shù)據(jù)庫:熟悉并巧用公共數(shù)據(jù)庫(TCGA和GEO等),以我自己的課題為例,在分析了蛋白質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù)后,需要建立蛋白質(zhì)和代謝產(chǎn)物之間的調(diào)控關(guān)系,可以借助PMI-DB網(wǎng)站進(jìn)行查詢預(yù)測。為找到更多的證據(jù)支持我現(xiàn)有的結(jié)論,我通過下載已發(fā)表文章中的單細(xì)胞測序公開數(shù)據(jù)進(jìn)行分析(實驗處理方法相似),經(jīng)分析后彌補(bǔ)了自己多組學(xué)分析在基因水平的空白,實驗數(shù)據(jù)更為豐滿。
②分析平臺:現(xiàn)有很多方便好用的平臺可以幫助你完成數(shù)據(jù)分析和制圖,滿足基本需求完全沒有問題,一些檢測公司會幫助你開通賬號(如BMKCloud)。更完備一些的工具可能會需要你下載程序,學(xué)習(xí)簡單的教程,可直接鏈接公共數(shù)據(jù)庫,分析和制圖也更加嚴(yán)謹(jǐn)和美觀(如TB tools)??傊?,在我們不會使用R語言和python的情況下,多了解現(xiàn)成的工具不失為一種捷徑,但最好能夠做到知其然,知其所以然,因為模式化分析算法,并不是對所有數(shù)據(jù)都適合,還是要充分了解自己的數(shù)據(jù)特征,需求和分析要點。工具是服務(wù)于我們結(jié)論表述和研究意圖的,不要只做工具的盲目使用者,若數(shù)據(jù)分析有誤,會直接影響到整個課題的后續(xù)研究。
(4)借助外力:
生信入門簡單,掌握不易,做好很難。如果你完全沒有時間去探索以上的學(xué)習(xí)內(nèi)容,但能基本掌握組學(xué)研究思路,了解數(shù)據(jù)處理和作圖原理,具備清晰表達(dá)需求的能力,也可以交給專業(yè)生信人員去做。無論是科研合作形式,或是測試分析加工模式,將分析和繪圖的細(xì)節(jié)溝通好,一定會事半功倍!但專業(yè)人士一定要有足夠的耐心和責(zé)任心,充分了解你的研究意圖和分析重點,同時,這也是你學(xué)習(xí)思路和方法的大好機(jī)會,至少在這個過程中會了解到一個專業(yè)生信人的分析思路,對于你其他類似的研究,大有裨益。
5,結(jié)語:
我作為生信的新朋友且能力一般般,只能幫你到這里了。我見過讓人佩服的生信牛人,思路清晰,將各種數(shù)據(jù)“玩弄于”電腦屏幕之上,妙手生花,輸出圖真是賞心悅目且清晰明了,這樣的牛人在我眼里自帶光環(huán)!也見過同你我一樣的非生信專業(yè)醫(yī)學(xué)生通過自學(xué)R語言,在他所在研究領(lǐng)域內(nèi)大放異彩,深受導(dǎo)師賞識。當(dāng)然,我能理解,這是他們經(jīng)歷無數(shù)個日日夜夜學(xué)習(xí)的結(jié)果。生信是一條學(xué)無止境的路,要不斷學(xué)習(xí),不斷探索,不斷創(chuàng)新。無論是你想把生信學(xué)好,學(xué)透,還是作為科研錦上添花的工具,愿與你為伴,在生信的海洋里遨游,收獲飛躍的羽翼,共勉!