Lucene Porter Stemmer - 获取原始的非词干词

Question

我已经研究出如何使用 Lucene 的 Porter Stemmer，但还想检索原始的、未词干的词。 因此，为此，我在创建 PorterStemFilter 之前向 TokenStream 添加了 CharTermAttribute，如下所示：

Analyzer analyzer = new StandardAnalyzer();
TokenStream original = analyzer.tokenStream("StandardTokenStream", new StringReader(inputText));
TokenStream stemmed = new PorterStemFilter(original);
CharTermAttribute originalWordAttribute = original.addAttribute(CharTermAttribute.class);
CharTermAttribute stemmedWordAttribute = stemmed.addAttribute(CharTermAttribute.class);

stemmed.reset();
while (stemmed.incrementToken()) {
    System.out.println(stemmedWordAttribute+" "+originalWordAttribute);
}

不幸的是，这两个属性都返回词干。 有没有办法获得原始单词？

Answer 1

Lucene 的PorterStemFilter可以与 Lucene 的KeywordRepeatFilter结合使用。 Porter Stemmer 使用它来提供词干和非词干标记。

修改你的方法：

Analyzer analyzer = new StandardAnalyzer();
TokenStream original = analyzer.tokenStream("StandardTokenStream", new StringReader(inputText));
TokenStream repeated = new KeywordRepeatFilter(original);
TokenStream stemmed = new PorterStemFilter(repeated);
CharTermAttribute stemmedWordAttribute = stemmed.addAttribute(CharTermAttribute.class);

stemmed.reset();
while (stemmed.incrementToken()) {
    String originalWord = stemmedWordAttribute.toString();
    stemmed.incrementToken();
    String stemmedWord = stemmedWordAttribute.toString();
    System.out.println(originalWord + " " + stemmedWord);
}

这相当粗糙，但显示了方法。

示例输入：

testing giraffe book passing

结果输出：

testing test
giraffe giraff
book book
passing pass

对于每对标记，如果第二个与第一个（ book book ）匹配，则没有词干。

通常，您会将此与RemoveDuplicatesTokenFilter一起使用来删除重复的book术语 - 但如果您这样做，我认为跟踪词干/非词干对会变得更加困难-因此对于您的特定情况，我没有使用该重复数据删除过滤器。

Lucene Porter Stemmer - 获取原始的非词干词

问题描述

1 个解决方案

解决方案1
0 2021-11-16 19:56:55

Lucene Porter Stemmer - 获取原始的非词干词

问题描述

1 个解决方案

解决方案1 0 2021-11-16 19:56:55

解决方案1
0 2021-11-16 19:56:55