自然語言處理 - 將非結構化書目轉換為結構化元數據

Question

目前正致力於一個自然語言處理項目，我需要將非結構化的參考書目部分（在研究文章末尾）轉換為結構化元數據，如“年”，“作者”，“期刊”，“卷ID”，“頁面”數字“，”標題“等

例如：輸入

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178

預期產量：

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on

使用的工具： CRFsuite

數據集：包含12000個引用

包含期刊標題，
包含文章標題的話，
包含位置名稱，

給定行中的每個單詞都被視為標記，並且對於每個標記，我得出以下特征

BOR在線的開頭，
EOR結束
digitFeature：如果令牌是數字
年份：如果令牌是年份格式，如19 **和20 **
在當前數據集中可用，

從上面的工具和數據集我只有63.7％的准確率。 “Title”的准確度非常低，“Year”和“Volume”的准確度也很低。

問題：

我可以繪制任何其他功能嗎？
我可以使用任何其他工具嗎？

Answer 1

我建議將解決方案基於現有方法。 請看一下本文的例子

Park，Sung Hee，Roger W. Ehrich和Edward A. Fox。 “一種混合的兩階段方法，用於從參考文獻中提取與學科無關的規范表示。” 第12屆ACM / IEEE-CS數字圖書館聯席會議論文集。 ACM，2012。

第3.2和4.2節提供了許多功能的描述。

至於CRF實現，還有其他像這樣的工具，但我不認為它是低精度的來源。

Answer 2

雖然我普遍認同Nikita，任何特定的CRF工具集都不是低精度的來源，而且這是一個解決方案問題。 Park，等人證明，我不確定兩階段的方法，雖然完成后非常准確和有效。 是一個解決問題的實用方法。

對於One，本文中提到的“兩階段”是配對的SVM / CRF，如果這不是您的主要研究領域，那么它們不易於動態設置。 它們每個都涉及標記數據的培訓和一定程度的調整。

第二，您的實際數據集（基於上面的描述）不太可能具有差異結構，因為此特定解決方案旨在應對，同時仍保持高精度。 在這種情況下，這種級別的監督學習是不必要的。

如果我可以提出一個具有許多相同功能的領域特定解決方案，這些功能應該更容易在您使用的任何工具中實現，我會嘗試一種（受限制的）語義樹方法，即半監督，特別是異常（錯誤）建議。

你有一個書目條目，而不是英文句子作為你的數據分子。 必須存在的這個分子的部分是作者部分，標題部分，日期部分和出版商部分，還可能有其他數據部分（頁碼，卷號等）。

由於這些部分中的一些可能彼此嵌套（例如，發布者部分中的頁面＃）或者以不同的排列順序嵌套，但仍然在操作上有效，因此它是使用語義樹的良好指示。

更進一步，每個區域雖然變量具有獨特的特征：作者部分（個人名稱格式，例如Blow，J。或James等等）; 標題部分（引用或斜體，具有標准句子結構）; 日期部分（日期格式，括在（）等），意味着您需要的整體培訓少於標記化和非結構化分析。 最后，這對你的課程學習的減少了。

此外，還有可以學習提高准確性的結構關系，例如：日期部分（通常在末尾或分離關鍵部分），作者部分（通常在開頭，或者在標題之后），等等。這進一步得到了事實上，許多協會和出版商都有這樣的方式來格式化這些參考，這些可以很容易地通過關系來學習而沒有太多的訓練數據。

因此，通過細分部分和進行結構化學習來總結，你正在減少每個子部分中的模式匹配，並且學習被歸結為更可靠的關系模式，因為這就是我們如何構建人類這樣的條目。

此外，還有大量用於此類領域特定語義學習的工具

http://www.semantic-measures-library.org/ http://wiki.opensemanticframework.org/index.php/Ontology_Tools

希望有幫助:)

自然語言處理 - 將非結構化書目轉換為結構化元數據

問題描述

2 個解決方案

解決方案1
2 2015-08-28 16:57:59

解決方案2
2 2015-09-04 03:52:11

自然語言處理 - 將非結構化書目轉換為結構化元數據

問題描述

2 個解決方案

解決方案1 2 2015-08-28 16:57:59

解決方案2 2 2015-09-04 03:52:11

解決方案1
2 2015-08-28 16:57:59

解決方案2
2 2015-09-04 03:52:11