通过机器学习从非结构化文本文件中检索信息

Question

因此，我有一堆.txt文件，它们是像这样的字符串作为PDF的一部分：

---
Name:
ID Number:
--
CONFIDENTIAL
.
Date:
Description:
Foo Bar
ABC456789
THIS PAGE INTENTIONALLY LEFT BLANK.
05/04/17
Lorem ipsum dolor sit amet

在所有这些噪音中，我想提取几个目标字段，而忽略其余信息：

Name: Foo Bar
ID Number: ABC456789
Date: 05/04/17
Description: Lorem ipsum dolor sit amet

因此，我要处理的大多数文档都具有相同的格式，因此到目前为止，可以记录出现目标值的行号并将其保存。 当然，这是一个粗略的解决方案，因为有多种格式将与.txt解析不同。 似乎有可能通过机器学习来提取信息，因为我手工完成了很多工作，因此有足够的训练数据。 以及出现的任何新文件格式，我也可以手动进行培训。 对于给定的ML算法，您将如何监督它并提供这种模式？

我有一些想法可以挑战：

正则表达式也是一种可行的选择，但是它不适用于所有事物，因为ID号并不遵循相同的格式。 有时可以是1234567以及ABC456789。 也许可以训练ML根据训练的目的提出自己的Regex序列。 我认为这可能是相关的，但是我不确定如何： http : //alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
在执行任何ML之前，我可以使用Tabula来检测PDF中的表，并在文本文件内用CSV替换非结构化表。
CNN或CRF适合此类数据。

我知道这是一个自以为是的问题（而且这不可能一done而就），但是我希望您能提出任何建议！

Answer 1

如果原始PDF文件采用表格格式，我建议您使用表格提取，因为这将是根据上面共享的信息来确保获得正确字段的最可靠方法。

对于这样一个简单的例子，对于我来说，CNN或CRF似乎有点过头了。 一个简单的决策树或任何现成的监督ML方法就足够了（同样，基于您在上面共享的示例）。

通过机器学习从非结构化文本文件中检索信息

问题描述

1 个解决方案

解决方案1
3 已采纳 2017-10-02 10:17:57

通过机器学习从非结构化文本文件中检索信息

问题描述

1 个解决方案

解决方案1 3 已采纳 2017-10-02 10:17:57

解决方案1
3 已采纳 2017-10-02 10:17:57