從生物醫(yī)學文獻中自動提取關系(RE)對于下游文本挖掘應用于研究和實際中都至關重要。然而,目前的生物醫(yī)學RE只關注在句子水平上單一類型的相互關系,例如蛋白質-蛋白質互作。小編今天給大家介紹的這篇新發(fā)表在BIB上的文章就創(chuàng)新性了提出了一個生物一些關系提取數(shù)據(jù)集(BioRED),包含多種類型,例如基因/蛋白質,疾病,化學以及他們之間的關系。首先,這篇文章回顧了常用的命名實體識別(NER)和RE數(shù)據(jù)集。其次,作者介紹了BioRED的方法和性能。此外,作者將每對關系標記為新發(fā)現(xiàn)的和經研究已知的。作者使用BERT模型評估BioRED的作用。結果表明,盡管現(xiàn)有的方法可以在NER任務上達到較高的性能但是在RE上的效果不好。BioRED數(shù)據(jù)集和注釋指南:https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/
NER/NEL/RE數(shù)據(jù)集總覽
目前,現(xiàn)有的NER/NEL數(shù)據(jù)集包括的部分物質類別,例如基因,蛋白質,化學物質和疾病等。然而,NER/NEL數(shù)據(jù)庫只關注一種類型的關系。表1為目前已知的NER/NEL數(shù)據(jù)集。目前,構建包括多種類型的NER/NEL數(shù)據(jù)集的局限性主要在于,第一,同一篇文章需要進行多次處理,還需要巨大的存儲空間來存儲標記結果;第二,有些實體的概念比較模糊。
對于RE數(shù)據(jù)集來說,同樣存在一些已有的RE數(shù)據(jù)集。大多數(shù)RE數(shù)據(jù)集都是從單個句子中提取關系,主要是在句子水平上提取單一類型的關系,只有極少數(shù)數(shù)據(jù)集做到了跨多個句子的關系。表2為目前已知的RE數(shù)據(jù)集。對于目前的RE數(shù)據(jù)集來說,大多數(shù)句子級的RE數(shù)據(jù)集沒有將實體名稱(例如:NCBI Gene ID)鏈接到外部資源/數(shù)據(jù)庫。而文檔級別的RE數(shù)據(jù)集高度依賴于概念標記。
基于上述局限性作者提出了一種新的生物一些關系提取數(shù)據(jù)集(BioRED)。首先,作者在PubMed中搜索并標記不同實體之間的關系。通過整理和合并后主要包括六種實體類型,分別為基因,化學物質,疾病,變異,種和細胞系。作者進一步研究了任意兩種實體之間的關系,例如<D,G>是<疾病,基因>;<D,C>是<疾病,化學物質>;<G,C>是<基因,化學物質>;<G,G>是<基因,基因>;<D,V>是<疾病,變異>;<C,V>是<化學物質,變異>;<C,C>是<化學物質,化學物質>;<V,V>是<變異,變異>。對于兩個以上實體之間的關系將簡化為多個關系對。例如,我們將化學藥物的共同治療疾病關系(硼替佐米和地塞米松共同治療多發(fā)性骨髓瘤)簡化為三種關系:<硼替佐米,多發(fā)性骨髓瘤,治療>,<地塞米松,多發(fā)性骨髓瘤,治療>,<硼替佐米,地塞米松,共治療>。本研究主要關注圖1A所示的8種關系對,這些關系對之間的生物學意義上的無向相關類型如圖1B所示。
其次,注釋流程與先前的注釋工作保持一致。首先,從現(xiàn)有的幾個數(shù)據(jù)庫中隨機抽取文章,使用少部分文章數(shù)據(jù)集來開發(fā)作者的注釋流程并讓注釋人員熟悉任務和TeamTat(一種基于Web的注釋工具)。根據(jù)之前生物醫(yī)學語料庫開發(fā)的實踐,我們制定了注釋指南,并選擇了與之前研究一致的PubMed文章。此外,為了加速實體注釋,作者將以前的注釋與自動預注釋結合使用,然后可以根據(jù)人類的判斷進行編輯。語料庫中的每一篇文章都首先由三個具有生物醫(yī)學信息學背景的注釋人員進行注釋,以防止手工注釋疲勞導致的錯誤和不完整的注釋。如果一個實體或一種關系不能在三個注釋者之間達成一致,那么該注釋將由另一個具有分子生物學背景的高級注釋者進行審查。對于每一種關系,另外兩名生物學家根據(jù)背景信息來評估它是否是一種新的發(fā)現(xiàn),并做出相應的注釋。
第三,對于數(shù)據(jù)特征來說,BioRED語料庫中共包含20419個實體,共注釋了6503個關系。新關系占比69%,表3為訓練,開發(fā)和測試集中實體和關系的數(shù)量。作者計算了實體注釋,關系注釋和新穎性關系注釋之間的注釋一致性(IAA),分別為97.01%,77.91%和85.01%。圖2為不同關系對的分布。
第四,為了評估BioRED語料庫的適用性,作者進行了一系列實驗評估其性能。表4為評估NER在測試集上的結果。第一次運行使用嚴格的指標進行評估,第二次運行放寬指標進行評估。BioBERT包含經過良好訓練的語言模型相對于BiLSTM可以提取更豐富的特征,從而獲得更好的性能。然而,PubMedBERT的性能在基因,變異和細胞系上面的表現(xiàn)優(yōu)于BioBERT。其原因是BioBERT使用從一般領域文本生成的原始BERT模型詞匯表從而會缺乏對生物醫(yī)學實體的理解。相反的,PubMedBERT使用從生物醫(yī)學文本從頭生成詞匯表,其F-score最高。
表5為已有方法分別在實體對,實體對和關系類型以及實體對,關系類型和新穎性在RE上的性能。結果表明,PubMedBERT的性能高于BERT的方法,在第一種模式中,BERT和PubMedBERT的F-score可以達到72%以上。在第二種模式中的最佳性能僅為58.9%,第三個模式的性能下降到47.7%。
此外,作者訓練了多個獨立的NER和RE模型,每個模型都有一個獨立的實體和關系。作者將其使用PubMedBERT進行評估。結果如表6所示,在所有實體或關系上訓練的模型表現(xiàn)均較好并且RE數(shù)據(jù)集的性能提升較高。結果表明,訓練具有更多實體或關系的NER/RE模型不僅可以減少資源的使用而且可能獲得更好的性能。
結論:
總的來說,作者開發(fā)的BioBERD是一個高質量的檢索語料庫,具有獨一無二的新穎注釋。BioBERT不僅可以作為生物醫(yī)學專用NLP工具的基準還可以作為通用領域RE方法開發(fā)的基準。此外,BioBERT提出了一種新的NLP任務,對實際應用中的信息提取至關重要。