從生物醫學文獻中自動提取關系(RE)對于下游文本挖掘應用于研究和實際中都至關重要。然而,目前的生物醫學RE只關注在句子水平上單一類型的相互關系,例如蛋白質-蛋白質互作。小編今天給大家介紹的這篇新發表在BIB上的文章就創新性了提出了一個生物一些關系提取數據集(BioRED),包含多種類型,例如基因/蛋白質,疾病,化學以及他們之間的關系。首先,這篇文章回顧了常用的命名實體識別(NER)和RE數據集。其次,作者介紹了BioRED的方法和性能。此外,作者將每對關系標記為新發現的和經研究已知的。作者使用BERT模型評估BioRED的作用。結果表明,盡管現有的方法可以在NER任務上達到較高的性能但是在RE上的效果不好。BioRED數據集和注釋指南:https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/

NER/NEL/RE數據集總覽
目前,現有的NER/NEL數據集包括的部分物質類別,例如基因,蛋白質,化學物質和疾病等。然而,NER/NEL數據庫只關注一種類型的關系。表1為目前已知的NER/NEL數據集。目前,構建包括多種類型的NER/NEL數據集的局限性主要在于,第一,同一篇文章需要進行多次處理,還需要巨大的存儲空間來存儲標記結果;第二,有些實體的概念比較模糊。

對于RE數據集來說,同樣存在一些已有的RE數據集。大多數RE數據集都是從單個句子中提取關系,主要是在句子水平上提取單一類型的關系,只有極少數數據集做到了跨多個句子的關系。表2為目前已知的RE數據集。對于目前的RE數據集來說,大多數句子級的RE數據集沒有將實體名稱(例如:NCBI Gene ID)鏈接到外部資源/數據庫。而文檔級別的RE數據集高度依賴于概念標記。

基于上述局限性作者提出了一種新的生物一些關系提取數據集(BioRED)。首先,作者在PubMed中搜索并標記不同實體之間的關系。通過整理和合并后主要包括六種實體類型,分別為基因,化學物質,疾病,變異,種和細胞系。作者進一步研究了任意兩種實體之間的關系,例如<D,G>是<疾病,基因>;<D,C>是<疾病,化學物質>;<G,C>是<基因,化學物質>;<G,G>是<基因,基因>;<D,V>是<疾病,變異>;<C,V>是<化學物質,變異>;<C,C>是<化學物質,化學物質>;<V,V>是<變異,變異>。對于兩個以上實體之間的關系將簡化為多個關系對。例如,我們將化學藥物的共同治療疾病關系(硼替佐米和地塞米松共同治療多發性骨髓瘤)簡化為三種關系:<硼替佐米,多發性骨髓瘤,治療>,<地塞米松,多發性骨髓瘤,治療>,<硼替佐米,地塞米松,共治療>。本研究主要關注圖1A所示的8種關系對,這些關系對之間的生物學意義上的無向相關類型如圖1B所示。

其次,注釋流程與先前的注釋工作保持一致。首先,從現有的幾個數據庫中隨機抽取文章,使用少部分文章數據集來開發作者的注釋流程并讓注釋人員熟悉任務和TeamTat(一種基于Web的注釋工具)。根據之前生物醫學語料庫開發的實踐,我們制定了注釋指南,并選擇了與之前研究一致的PubMed文章。此外,為了加速實體注釋,作者將以前的注釋與自動預注釋結合使用,然后可以根據人類的判斷進行編輯。語料庫中的每一篇文章都首先由三個具有生物醫學信息學背景的注釋人員進行注釋,以防止手工注釋疲勞導致的錯誤和不完整的注釋。如果一個實體或一種關系不能在三個注釋者之間達成一致,那么該注釋將由另一個具有分子生物學背景的高級注釋者進行審查。對于每一種關系,另外兩名生物學家根據背景信息來評估它是否是一種新的發現,并做出相應的注釋。
第三,對于數據特征來說,BioRED語料庫中共包含20419個實體,共注釋了6503個關系。新關系占比69%,表3為訓練,開發和測試集中實體和關系的數量。作者計算了實體注釋,關系注釋和新穎性關系注釋之間的注釋一致性(IAA),分別為97.01%,77.91%和85.01%。圖2為不同關系對的分布。


第四,為了評估BioRED語料庫的適用性,作者進行了一系列實驗評估其性能。表4為評估NER在測試集上的結果。第一次運行使用嚴格的指標進行評估,第二次運行放寬指標進行評估。BioBERT包含經過良好訓練的語言模型相對于BiLSTM可以提取更豐富的特征,從而獲得更好的性能。然而,PubMedBERT的性能在基因,變異和細胞系上面的表現優于BioBERT。其原因是BioBERT使用從一般領域文本生成的原始BERT模型詞匯表從而會缺乏對生物醫學實體的理解。相反的,PubMedBERT使用從生物醫學文本從頭生成詞匯表,其F-score最高。

表5為已有方法分別在實體對,實體對和關系類型以及實體對,關系類型和新穎性在RE上的性能。結果表明,PubMedBERT的性能高于BERT的方法,在第一種模式中,BERT和PubMedBERT的F-score可以達到72%以上。在第二種模式中的最佳性能僅為58.9%,第三個模式的性能下降到47.7%。

此外,作者訓練了多個獨立的NER和RE模型,每個模型都有一個獨立的實體和關系。作者將其使用PubMedBERT進行評估。結果如表6所示,在所有實體或關系上訓練的模型表現均較好并且RE數據集的性能提升較高。結果表明,訓練具有更多實體或關系的NER/RE模型不僅可以減少資源的使用而且可能獲得更好的性能。

結論:
總的來說,作者開發的BioBERD是一個高質量的檢索語料庫,具有獨一無二的新穎注釋。BioBERT不僅可以作為生物醫學專用NLP工具的基準還可以作為通用領域RE方法開發的基準。此外,BioBERT提出了一種新的NLP任務,對實際應用中的信息提取至關重要。