繁体   English   中英

从非结构化文本中提取键值的方法有哪些?

[英]What are the ways of Key-Value extraction from unstructured text?

我正在尝试找出提取非结构化文本中预定义键的值的方法(以及哪种方法最好)?

输入:

  1. 医生给我开了一种叫法维吡韦的药物。
  2. 他叫尤里。
  3. Ilya已经告诉过我。
  4. 今天天气很冷。
  5. 我正在吃一种叫做纳粹的药物。

密钥列表:['药物','名称','天气']

输出:

['drug = favipiravir','drug = nazivin','name = Yury','weather = Cold']

因此,如您所见,在3d句子中没有显式键“名称”,因此也没有提取任何值(我认为与NER有所不同)。 同时,“ drug”和“ medicine”是同义词,我们应该将“ medicine”作为“ drug”键,并提取其值。

接下来的问题是,如果密钥集是可变的,该怎么办? 是否应该由于预定义的键而将其用作基础正则表达式方法,还是可以通过监督学习/ NN来实现它? (但是在这种情况下,如何处理可变键?)

您可以使用解析器标记病房。 您的问题类似于命名实体识别。 许多库都提供POS标记器。 您可以尝试那些。 通常对它们进行培训以识别名称,位置等。根据您需要的单词类型,您可能需要训练解析器。 因此,您还需要一些标记数据。
查看此链接: https : //nlp.stanford.edu/software/CRF-NER.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM