[英]Why does using time.time() to measure the execution time return different results each time?
[英]Does NLTK return different results on each run?
Python的NLTK工具包是否针对以下每次迭代返回不同的结果:
1)代币化
2)POS标记?
我正在使用NLTK标记大型文本文件。 元组的标记化列表每次都有不同的大小。 为什么是这样?
不能在任何迭代循环中修改其逻辑或计算。
在NLTK中,默认情况下,标记化是基于规则的,使用正则表达式从句子中分离标记
POS标记默认情况下使用英语的经过训练的模型,因此对于给定的经过训练的模型,每个令牌将赋予相同的POS标签。 如果再次训练该模型,它将改变。
因此,对您问题的基本答案是“ no
标记器和标记器都是确定性的。 尽管遍历Python字典可能会在程序的每次执行中以不同的顺序返回结果,但这不会影响标记化-因此标记的数量(带或不带标记)不应改变。 您的代码有其他问题。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.