如何编写LuceneFilter来规范化文本

Question

所以我有我的基本代码

public static final Pattern DIACRITICS_AND_FRIENDS
        = Pattern.compile("[\\p{InCombiningDiacriticalMarks}\\p{IsLm}\\p{IsSk}]+");


private static String stripDiacritics(String str) {
    str = Normalizer.normalize(str, Normalizer.Form.NFD);
    str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
    return str;
}

但是如何将其放入TokenFilter中，我之前使用过NormalizeCharMap，但这仅对修改字符串文字有好处，我使用Lucene 4

Answer 1

您需要重写CharTermAttribute incrementToken()方法，在其中更新CharTermAttribute ：

public final class DiacriticFilter extends TokenFilter {
    private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);

    @Override
    public final boolean incrementToken() throws IOException {
        if (input.incrementToken()) {
            String result = stripDiacritics(new String(termAtt.buffer()));
            char[] newBuffer = result.toCharArray();
            termAtt.copyBuffer(newBuffer, 0, newBuffer.length)
            termAtt.setLength(newBuffer.length);
            return true;
        } else {
            return false;
        }
    }

    private static String stripDiacritics(String str) {
        str = Normalizer.normalize(str, Normalizer.Form.NFD);
        str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
        return str;
    }
}

如何编写LuceneFilter来规范化文本

问题描述

1 个解决方案

解决方案1
0 已采纳 2014-09-29 16:45:13

如何编写LuceneFilter来规范化文本

问题描述

1 个解决方案

解决方案1 0 已采纳 2014-09-29 16:45:13

解决方案1
0 已采纳 2014-09-29 16:45:13