NLTK词干产生奇怪结果

Question

运行nltk.stem.porter.PorterStemmer().stem_word(word)我得到了很多单词，其中'ing'被截断或'y'被'i'交换。 例如，“质量”变成“ Qualiti”，（甚至是陌生人）“价值”变成“价值”？

由于生成的单词不是实际的英语单词，因此我不确定该如何使用它们？ 我最好的猜测是，我打算将主词放入另一个函数中，该函数将为我提供从该主词派生的所有派生词/子词（例如'value'将返回['valuing','valued', 'values', ...] ，。 ['valuing','valued', 'values', ...] 。有这样的功能吗？

Answer 1

通过执行一系列转换规则以去除常见的后缀和前缀，词干提取单词的词干。 因此，产生的结果可能不是实际的英语单词。 词干的一般用法是对单词进行归一化，以便将它们视为相同。 例如：

stem_word('value') == stem_word('valuing')

然后可以将词干索引以进行搜索。 传入查询执行相同的词干处理，以使查询词在查找时与索引中的词干词匹配。

Answer 2

我不熟悉该特定功能，但总的来说，词干是单词的词根，不一定是合法的英语单词。

您正在使用nltk书吗？ 本章涵盖了词干： http : //nltk.googlecode.com/svn/trunk/doc/book/ch03.html

NLTK词干产生奇怪结果

问题描述

2 个解决方案

解决方案1
5 已采纳 2012-07-17 02:49:47

解决方案2
1 2012-07-17 02:52:31

NLTK词干产生奇怪结果

问题描述

2 个解决方案

解决方案1 5 已采纳 2012-07-17 02:49:47

解决方案2 1 2012-07-17 02:52:31

解决方案1
5 已采纳 2012-07-17 02:49:47

解决方案2
1 2012-07-17 02:52:31