[英]Natural Language Processing - Converting unstructured bibliography to structured metadata
目前正致力於一個自然語言處理項目,我需要將非結構化的參考書目部分(在研究文章末尾)轉換為結構化元數據,如“年”,“作者”,“期刊”,“卷ID”,“頁面”數字“,”標題“等
例如:輸入
McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178
預期產量:
<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on
使用的工具: CRFsuite
數據集:包含12000個引用
給定行中的每個單詞都被視為標記,並且對於每個標記,我得出以下特征
從上面的工具和數據集我只有63.7%的准確率。 “Title”的准確度非常低,“Year”和“Volume”的准確度也很低。
問題:
雖然我普遍認同Nikita,任何特定的CRF工具集都不是低精度的來源,而且這是一個解決方案問題。 Park,等人證明,我不確定兩階段的方法,雖然完成后非常准確和有效。 是一個解決問題的實用方法。
對於One,本文中提到的“兩階段”是配對的SVM / CRF,如果這不是您的主要研究領域,那么它們不易於動態設置。 它們每個都涉及標記數據的培訓和一定程度的調整。
第二,您的實際數據集(基於上面的描述)不太可能具有差異結構,因為此特定解決方案旨在應對,同時仍保持高精度。 在這種情況下,這種級別的監督學習是不必要的。
如果我可以提出一個具有許多相同功能的領域特定解決方案,這些功能應該更容易在您使用的任何工具中實現,我會嘗試一種(受限制的)語義樹方法,即半監督,特別是異常(錯誤)建議。
你有一個書目條目,而不是英文句子作為你的數據分子。 必須存在的這個分子的部分是作者部分,標題部分,日期部分和出版商部分,還可能有其他數據部分(頁碼,卷號等)。
由於這些部分中的一些可能彼此嵌套(例如,發布者部分中的頁面#)或者以不同的排列順序嵌套,但仍然在操作上有效,因此它是使用語義樹的良好指示。
更進一步,每個區域雖然變量具有獨特的特征:作者部分(個人名稱格式,例如Blow,J。或James等等); 標題部分(引用或斜體,具有標准句子結構); 日期部分(日期格式,括在()等),意味着您需要的整體培訓少於標記化和非結構化分析。 最后,這對你的課程學習的減少了。
此外,還有可以學習提高准確性的結構關系,例如:日期部分(通常在末尾或分離關鍵部分),作者部分(通常在開頭,或者在標題之后),等等。這進一步得到了事實上,許多協會和出版商都有這樣的方式來格式化這些參考,這些可以很容易地通過關系來學習而沒有太多的訓練數據。
因此,通過細分部分和進行結構化學習來總結,你正在減少每個子部分中的模式匹配,並且學習被歸結為更可靠的關系模式,因為這就是我們如何構建人類這樣的條目。
此外,還有大量用於此類領域特定語義學習的工具
http://www.semantic-measures-library.org/ http://wiki.opensemanticframework.org/index.php/Ontology_Tools
希望有幫助:)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.