繁体   English   中英

NLTK词干产生奇怪结果

[英]NLTK stem words produces odd results

运行nltk.stem.porter.PorterStemmer().stem_word(word)我得到了很多单词,其中'ing'被截断或'y'被'i'交换。 例如,“质量”变成“ Qualiti”,(甚至是陌生人)“价值”变成“价值”?

由于生成的单词不是实际的英语单词,因此我不确定该如何使用它们? 我最好的猜测是,我打算将主词放入另一个函数中,该函数将为我提供从该主词派生的所有派生词/子词(例如'value'将返回['valuing','valued', 'values', ...] ,。 ['valuing','valued', 'values', ...] 。有这样的功能吗?

通过执行一系列转换规则以去除常见的后缀和前缀,词干提取单词的词干。 因此,产生的结果可能不是实际的英语单词。 词干的一般用法是对单词进行归一化,以便将它们视为相同。 例如:

stem_word('value') == stem_word('valuing')

然后可以将词干索引以进行搜索。 传入查询执行相同的词干处理,以使查询词在查找时与索引中的词干词匹配。

我不熟悉该特定功能,但总的来说,词干是单词的词根,不一定是合法的英语单词。

您正在使用nltk书吗? 本章涵盖了词干: http : //nltk.googlecode.com/svn/trunk/doc/book/ch03.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM