繁体   English   中英

NLTK每次运行是否返回不同的结果?

[英]Does NLTK return different results on each run?

Python的NLTK工具包是否针对以下每次迭代返回不同的结果:

1)代币化

2)POS标记?

我正在使用NLTK标记大型文本文件。 元组的标记化列表每次都有不同的大小。 为什么是这样?

不能在任何迭代循环中修改其逻辑或计算。

在NLTK中,默认情况下,标记化是基于规则的,使用正则表达式从句子中分离标记

POS标记默认情况下使用英语的经过训练的模型,因此对于给定的经过训练的模型,每个令牌将赋予相同的POS标签。 如果再次训练该模型,它将改变。

因此,对您问题的基本答案是“ no

标记器和标记器都是确定性的。 尽管遍历Python字典可能会在程序的每次执行中以不同的顺序返回结果,但这不会影响标记化-因此标记的数量(带或不带标记)不应改变。 您的代码有其他问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM