通過機器學習從非結構化文本文件中檢索信息

Question

因此，我有一堆.txt文件，它們是像這樣的字符串作為PDF的一部分：

---
Name:
ID Number:
--
CONFIDENTIAL
.
Date:
Description:
Foo Bar
ABC456789
THIS PAGE INTENTIONALLY LEFT BLANK.
05/04/17
Lorem ipsum dolor sit amet

在所有這些噪音中，我想提取幾個目標字段，而忽略其余信息：

Name: Foo Bar
ID Number: ABC456789
Date: 05/04/17
Description: Lorem ipsum dolor sit amet

因此，我要處理的大多數文檔都具有相同的格式，因此到目前為止，可以記錄出現目標值的行號並將其保存。 當然，這是一個粗略的解決方案，因為有多種格式將與.txt解析不同。 似乎有可能通過機器學習來提取信息，因為我手工完成了很多工作，因此有足夠的訓練數據。 以及出現的任何新文件格式，我也可以手動進行培訓。 對於給定的ML算法，您將如何監督它並提供這種模式？

我有一些想法可以挑戰：

正則表達式也是一種可行的選擇，但是它不適用於所有事物，因為ID號並不遵循相同的格式。 有時可以是1234567以及ABC456789。 也許可以訓練ML根據訓練的目的提出自己的Regex序列。 我認為這可能是相關的，但是我不確定如何： http : //alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
在執行任何ML之前，我可以使用Tabula來檢測PDF中的表，並在文本文件內用CSV替換非結構化表。
CNN或CRF適合此類數據。

我知道這是一個自以為是的問題（而且這不可能一done而就），但是我希望您能提出任何建議！

Answer 1

如果原始PDF文件采用表格格式，我建議您使用表格提取，因為這將是根據上面共享的信息來確保獲得正確字段的最可靠方法。

對於這樣一個簡單的例子，對於我來說，CNN或CRF似乎有點過頭了。 一個簡單的決策樹或任何現成的監督ML方法就足夠了（同樣，基於您在上面共享的示例）。

通過機器學習從非結構化文本文件中檢索信息

問題描述

1 個解決方案

解決方案1
3 已采納 2017-10-02 10:17:57

通過機器學習從非結構化文本文件中檢索信息

問題描述

1 個解決方案

解決方案1 3 已采納 2017-10-02 10:17:57

解決方案1
3 已采納 2017-10-02 10:17:57