[英]Moving away from simple regex extraction to NER?
我们有一个相对“简单”的业务项目:使用 OCR 将一些合同扫描(PDF 文件)数字化并从文本中提取实体。
实体可以是简单的东西,例如位于合同的某个小节中的特定价格,或者可以在第 5 节附近的某处找到的流程的通用定义。对于同一实体,不同的表述和语言可在不同的地方互换使用合同。
我们有有限数量的示例(每个实体 10 到 20 个)来开发提取算法。
鉴于目前每个实体的特定性质,我们创建了许多函数,这些函数作用于amazon-textract
从 PDF 中提取的字符串,并使用regex
规则加上对结果的一些额外修改以获得我们需要的东西。
这是迄今为止获得立竿见影效果的最佳解决方案,但很难修改以防万一出现问题。 此外,为了改进结果,只有了解代码的人才能通过在正则表达式规则中基本上引入新的or
来干预和修改它。 这仍然很烦人,因为我们必须 go 返回代码并查看哪里有问题。 当然,这远非理想。
我想过使用命名实体识别 (NER) model 由用户输入训练,可以直接在文本中突出显示实体,但鉴于训练集有限,是否有可能使用类似的方法? 我的印象是,要获得一致的 model,每个实体至少需要 100 个示例。
有没有更聪明的选择来使用正则表达式? 或者总体而言,您认为我们的管道可以如何改进?
警告 - Hacky 方式!
复制数据集 Annotate 直到它达到 100,因为这是 AWS 的限制。 创建一个 CSV 文件,并将其提供给 textract。 培训model
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.