[英]Information retrieval from unstructured text files by machine learning
因此,我有一堆.txt文件,它們是像這樣的字符串作為PDF的一部分:
---
Name:
ID Number:
--
CONFIDENTIAL
.
Date:
Description:
Foo Bar
ABC456789
THIS PAGE INTENTIONALLY LEFT BLANK.
05/04/17
Lorem ipsum dolor sit amet
在所有這些噪音中,我想提取幾個目標字段,而忽略其余信息:
Name: Foo Bar
ID Number: ABC456789
Date: 05/04/17
Description: Lorem ipsum dolor sit amet
因此,我要處理的大多數文檔都具有相同的格式,因此到目前為止,可以記錄出現目標值的行號並將其保存。 當然,這是一個粗略的解決方案,因為有多種格式將與.txt解析不同。 似乎有可能通過機器學習來提取信息,因為我手工完成了很多工作,因此有足夠的訓練數據。 以及出現的任何新文件格式,我也可以手動進行培訓。 對於給定的ML算法,您將如何監督它並提供這種模式?
我有一些想法可以挑戰:
我知道這是一個自以為是的問題(而且這不可能一done而就),但是我希望您能提出任何建議!
如果原始PDF文件采用表格格式,我建議您使用表格提取,因為這將是根據上面共享的信息來確保獲得正確字段的最可靠方法。
對於這樣一個簡單的例子,對於我來說,CNN或CRF似乎有點過頭了。 一個簡單的決策樹或任何現成的監督ML方法就足夠了(同樣,基於您在上面共享的示例)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.