繁体   English   中英

SOLR词干和停用词

[英]SOLR stemming and stopwords

在SOLR 3.5文本字段类型中,StopFilterFactory列在PorterStemFilterFactory之前。

这是否意味着,如果我想停止例如“游戏”和“游戏”,我将不得不添加两个停顿词?

如果是这样会在PorterStemFilterFactory之后移动StopFilterFactory,并且只是将“游戏”添加到停用词会导致“游戏”和“游戏”的出现被剥夺?

我想真正的问题是最好的方法是什么,我是否需要将这个词的所有变体添加到停用词?

PorterStemFilterFactory提供了PorterStemFilterFactory词干,并且在停止词过滤器之前可能不会导致正确的停止词删除,因为根可能与您尝试停止的词不同。
您可以添加复数处理,只能在停用词过滤器之前使用solr.EnglishMinimalStemFilterFactory
这将处理复数,然后停止词将需要处理单数形式。
然后,您可以添加PorterStemFilterFactory过滤器来处理正确的词干。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM