[英]What are the ways of Key-Value extraction from unstructured text?
我正在尝试找出提取非结构化文本中预定义键的值的方法(以及哪种方法最好)?
输入:
密钥列表:['药物','名称','天气']
输出:
['drug = favipiravir','drug = nazivin','name = Yury','weather = Cold']
因此,如您所见,在3d句子中没有显式键“名称”,因此也没有提取任何值(我认为与NER有所不同)。 同时,“ drug”和“ medicine”是同义词,我们应该将“ medicine”作为“ drug”键,并提取其值。
接下来的问题是,如果密钥集是可变的,该怎么办? 是否应该由于预定义的键而将其用作基础正则表达式方法,还是可以通过监督学习/ NN来实现它? (但是在这种情况下,如何处理可变键?)
您可以使用解析器标记病房。 您的问题类似于命名实体识别。 许多库都提供POS标记器。 您可以尝试那些。 通常对它们进行培训以识别名称,位置等。根据您需要的单词类型,您可能需要训练解析器。 因此,您还需要一些标记数据。
查看此链接: https : //nlp.stanford.edu/software/CRF-NER.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.