繁体   English   中英

根据标记的句子标记句子

[英]Tag a Sentence based on Tagged Sentences

我正在创建一个能够基于先前标记的句子标记句子的系统。 我的语料库的结构称为“ 已知问题”

已知问题:

city_name西班牙最受欢迎的城市是什么?

amount_of_people市中心有多少人?

新任务:

意大利最受欢迎的城市是哪里?

体育场有几个人?

离纽约最近的城市是什么?

标签示例:

城市名

amount_of_people

预期结果:

city_name意大利最受欢迎的城市是什么?

amount_of_people体育场有多少人?

city_name离纽约最近的城市是什么?

我总共有30个标签和350个Senteces。 是否有任何python框架或已知算法来分析语料库并基于语料库标记新句子?

通常,应将其视为分类的机器学习任务。 您可以使用多种方法,从朴素贝叶斯到多层感知器再到基于softmax的DNN。 我强烈建议对上述任务使用上述方法之一,但是鉴于您只有350个问题,因此我不知道分类器是否可以在不做实验的情况下学习那么少的数据。

但是,如果您希望使用基于规则的方法来解决此问题,我建议您使用依赖项解析 这是基于以下假设:您的所有数据都由语法形式正确的问题组成,并且标签和问题之间存在语义关系。

让我们在这里使用Stanford Dependency Parser 解决以下问题: What is the nearest city to New York?

UNIVERSAL DEPENDENCIES:

root(ROOT-0, What-1)
cop(What-1, is-2)
det(city-5, the-3)
amod(city-5, nearest-4)
nsubj(What-1, city-5)
case(York-8, to-6)
compound(York-8, New-7)
nmod(city-5, York-8)

如您所见, nsubj (名词性主题)告诉我们有关“ What”和“ city”之间的关系(在此处了解更多有关依赖性的信息 )。 所以每一次,你有“城市”为nsubj “什么”(说),你可以分配的city_name标签的问题。

同样,如果“人”是在nsubj一个问题(并且在“多” amod ),也许你可以分配amount_of_people标签这个问题。

您必须以类似的方式观察并找到30个标签中每个标签的最佳依赖关系规则,这绝对可以解决问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM