關(guān)于這個(gè)話題我早就想吐槽下了。
大家都知道
三流企業(yè)賣產(chǎn)品
二流企業(yè)賣服務(wù)
一流企業(yè)賣標(biāo)準(zhǔn)
最近華為拿到了5G通訊的部分標(biāo)準(zhǔn),確實(shí)讓人振奮。
回到生物信息中,目前生物信息學(xué)中的數(shù)據(jù)格式標(biāo)準(zhǔn)還是可以的。比如標(biāo)準(zhǔn)的fa、fastq、gff3、bam等,這些標(biāo)準(zhǔn)格式用起來(lái)還是可以的。
今天小編主要想吐槽的就是生信分析中閾值這個(gè)點(diǎn)。
首先吐槽就是相似性,目前大家在做同源比對(duì)的時(shí)候,大多會(huì)選擇80%的區(qū)域相似,我們就認(rèn)為這兩個(gè)序列同源。這里這個(gè)80%是怎么來(lái)的呢,我想大多情況下是大家的經(jīng)驗(yàn)之談。
第一個(gè)吃螃蟹的人說用筷子夾著吃好吃,跟隨者自不必嘗試下用勺子的好處。
還有就是E value,在blast的時(shí)候,大家都默認(rèn)物種內(nèi)是-10,物種間是-5,這些又是經(jīng)驗(yàn)之談了。
當(dāng)然這些在處理一般的問題的時(shí)候沒有什么問題。但是在處理特殊的物種的情況下就會(huì)出現(xiàn)很多的問題。比如這個(gè)物種整體就是和參考相差太多,變異較多。你還固守參數(shù)的話,結(jié)果肯定慘不忍睹。
我相信這里舉的例子只是一個(gè)簡(jiǎn)單的代表,靠閾值來(lái)卡好壞結(jié)果的例子在生信中遍地都是。
但是目前生信分析對(duì)于這里木有固定的標(biāo)準(zhǔn),素質(zhì)稍微高的分析人員會(huì)稍微考慮下物種的特異性,調(diào)整下標(biāo)準(zhǔn),更多的人就是根據(jù)固定的經(jīng)驗(yàn)值去篩,TM的愛是啥是啥。
既然行業(yè)沒有標(biāo)準(zhǔn),說明這里確實(shí)不好訂標(biāo)準(zhǔn),甚至連固定的方法都沒有。
小編又想起來(lái)得吐槽下,目前很多公司都在做三代全長(zhǎng)轉(zhuǎn)錄組。大家在全長(zhǎng)建庫(kù)的時(shí)候更多的是參考高粱和玉米的轉(zhuǎn)錄本的比例。建庫(kù)策略一般是:小于1K,1K-3K,3K-6K等等,比例也較為固定2:3:3。但是這里如果其之前測(cè)過轉(zhuǎn)錄組,或者存在近緣,是不是利用其數(shù)據(jù)簡(jiǎn)單的評(píng)估下,選擇適合這個(gè)物種的建庫(kù)策略呢。
吐槽回來(lái),小編其實(shí)想說如果存在行業(yè)標(biāo)準(zhǔn),我們應(yīng)該按照標(biāo)準(zhǔn)來(lái)說,但是同時(shí)要兼顧物種的特異性。既然標(biāo)準(zhǔn)是經(jīng)驗(yàn),經(jīng)驗(yàn)就有失效的時(shí)候。還有就是應(yīng)該從問題出發(fā),然后設(shè)定標(biāo)準(zhǔn)。
大于1是正選擇,但是這個(gè)物種超級(jí)保守,是不是選擇那些大于0.6的就可以了呢。
這里小編有三個(gè)想法
1、從問題本身出發(fā),生物信息分析其實(shí)就是一個(gè)初步篩選的過程,這里標(biāo)準(zhǔn)的設(shè)定其實(shí)不是最重要的,哪怕你通過抓鬮、扔鞋決定出來(lái)的基因,被證明有意義,都可以。這里研究的是生物問題,不是生信方法。
2、沒有標(biāo)準(zhǔn),是否可以從統(tǒng)計(jì)學(xué)分布出發(fā)。目前這些所謂的標(biāo)準(zhǔn)其實(shí)也是基于統(tǒng)計(jì)學(xué)分析而來(lái)的,當(dāng)這個(gè)物種比較特殊的時(shí)候,我們應(yīng)該從物種本身的分布上去研究。舉例:在做正選擇基因篩選的時(shí)候,整體沒有大于1的,那這時(shí)我們應(yīng)該繪制下這個(gè)物種基因受選擇壓力的整體分布圖,看下位于右5%,10%的基因。這些所謂的離群的點(diǎn),最有可能就是有意義的點(diǎn)。這樣總比一刀切好的多。
3、 學(xué)生信的都弄過機(jī)器學(xué)習(xí),這種問題完全可以機(jī)器模擬,學(xué)習(xí)搞定。將目前的所有的發(fā)布的數(shù)據(jù)整合下,構(gòu)建下數(shù)據(jù)庫(kù),提取下特征,構(gòu)建分類器,然后研究新的物種的時(shí)候,運(yùn)行下這個(gè)分類器,讓他給一個(gè)標(biāo)準(zhǔn)。這個(gè)絕對(duì)比你手一抖給的標(biāo)準(zhǔn),可靠的多的多的多的多。
想起剛?cè)雽W(xué)的時(shí)候,一個(gè)老師說的話,給大家安利下。
按照預(yù)定的方案和計(jì)劃去實(shí)施,只能得到預(yù)定的結(jié)果,而無(wú)法實(shí)現(xiàn)超越。
歡迎關(guān)注生信人