簡體   English   中英

自然語言處理 - 將非結構化書目轉換為結構化元數據

[英]Natural Language Processing - Converting unstructured bibliography to structured metadata

目前正致力於一個自然語言處理項目,我需要將非結構化的參考書目部分(在研究文章末尾)轉換為結構化元數據,如“年”,“作者”,“期刊”,“卷ID”,“頁面”數字“,”標題“等


例如:輸入

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178

預期產量:

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on

使用的工具: CRFsuite


數據集:包含12000個引用

  1. 包含期刊標題,
  2. 包含文章標題的話,
  3. 包含位置名稱,

給定行中的每個單詞都被視為標記,並且對於每個標記,我得出以下特征

  1. BOR在線的開頭,
  2. EOR結束
  3. digitFeature:如果令牌是數字
  4. 年份:如果令牌是年份格式,如19 **和20 **
  5. 在當前數據集中可用,

從上面的工具和數據集我只有63.7%的准確率。 “Title”的准確度非常低,“Year”和“Volume”的准確度也很低。

問題:

  1. 我可以繪制任何其他功能嗎?
  2. 我可以使用任何其他工具嗎?

我建議將解決方案基於現有方法。 請看一下本文的例子

Park,Sung Hee,Roger W. Ehrich和Edward A. Fox。 “一種混合的兩階段方法,用於從參考文獻中提取與學科無關的規范表示。” 第12屆ACM / IEEE-CS數字圖書館聯席會議論文集。 ACM,2012。

第3.2和4.2節提供了許多功能的描述。

至於CRF實現,還有其他像這樣的工具,但我不認為它是低精度的來源。

雖然我普遍認同Nikita,任何特定的CRF工具集都不是低精度的來源,而且這是一個解決方案問題。 Park,等人證明,我不確定兩階段的方法,雖然完成后非常准確和有效。 是一個解決問題的實用方法。

對於One,本文中提到的“兩階段”是配對的SVM / CRF,如果這不是您的主要研究領域,那么它們不易於動態設置。 它們每個都涉及標記數據的培訓和一定程度的調整。

第二,您的實際數據集(基於上面的描述)不太可能具有差異結構,因為此特定解決方案旨在應對,同時仍保持高精度。 在這種情況下,這種級別的監督學習是不必要的。

如果我可以提出一個具有許多相同功能的領域特定解決方案,這些功能應該更容易在您使用的任何工具中實現,我會嘗試一種(受限制的)語義樹方法,即半監督,特別是異常(錯誤)建議。

你有一個書目條目,而不是英文句子作為你的數據分子。 必須存在的這個分子的部分是作者部分,標題部分,日期部分和出版商部分,還可能有其他數據部分(頁碼,卷號等)。

由於這些部分中的一些可能彼此嵌套(例如,發布者部分中的頁面#)或者以不同的排列順序嵌套,但仍然在操作上有效,因此它是使用語義樹的良好指示。

更進一步,每個區域雖然變量具有獨特的特征:作者部分(個人名稱格式,例如Blow,J。或James等等); 標題部分(引用或斜體,具有標准句子結構); 日期部分(日期格式,括在()等),意味着您需要的整體培訓少於標記化和非結構化分析。 最后,這對你的課程學習的減少了。

此外,還有可以學習提高准確性的結構關系,例如:日期部分(通常在末尾或分離關鍵部分),作者部分(通常在開頭,或者在標題之后),等等。這進一步得到了事實上,許多協會和出版商都有這樣的方式來格式化這些參考,這些可以很容易地通過關系來學習而沒有太多的訓練數據。

因此,通過細分部分和進行結構化學習來總結,你正在減少每個子部分中的模式匹配,並且學習被歸結為更可靠的關系模式,因為這就是我們如何構建人類這樣的條目。

此外,還有大量用於此類領域特定語義學習的工具

http://www.semantic-measures-library.org/ http://wiki.opensemanticframework.org/index.php/Ontology_Tools

希望有幫助:)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM