繁体   English   中英

从简单的正则表达式提取转向 NER?

[英]Moving away from simple regex extraction to NER?

我们有一个相对“简单”的业务项目:使用 OCR 将一些合同扫描(PDF 文件)数字化并从文本中提取实体。

实体可以是简单的东西,例如位于合同的某个小节中的特定价格,或者可以在第 5 节附近的某处找到的流程的通用定义。对于同一实体,不同的表述和语言可在不同的地方互换使用合同。

我们有有限数量的示例(每个实体 10 到 20 个)来开发提取算法。

鉴于目前每个实体的特定性质,我们创建了许多函数,这些函数作用于amazon-textract从 PDF 中提取的字符串,并使用regex规则加上对结果的一些额外修改以获得我们需要的东西。

这是迄今为止获得立竿见影效果的最佳解决方案,但很难修改以防万一出现问题。 此外,为了改进结果,只有了解代码的人才能通过在正则表达式规则中基本上引入新的or来干预和修改它。 这仍然很烦人,因为我们必须 go 返回代码并查看哪里有问题。 当然,这远非理想。

我想过使用命名实体识别 (NER) model 由用户输入训练,可以直接在文本中突出显示实体,但鉴于训练集有限,是否有可能使用类似的方法? 我的印象是,要获得一致的 model,每个实体至少需要 100 个示例。

有没有更聪明的选择来使用正则表达式? 或者总体而言,您认为我们的管道可以如何改进?

警告 - Hacky 方式!

复制数据集 Annotate 直到它达到 100,因为这是 AWS 的限制。 创建一个 CSV 文件,并将其提供给 textract。 培训model

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM