如何使用 Hibernate Lucene Search 对挪威字符（Æ、Ø 和 Å）进行不区分大小写的排序？

Question

æ、ø、å 是挪威语字母表中的最新字母

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Æ Ø Å

当我们尝试使用 Hibernate Lucene 对其进行排序时， Å clubs with A ， Ø clubs with Ø ， Æ clibs with A是错误的。 例如：

当前结果：

阿鲁、阿鲁、巴鲁、扎鲁、

预期结果：

阿鲁、巴鲁、扎鲁、阿鲁、

以下是工作代码：

@AnalyzerDef(name = "myOwnAnalyzer",
tokenizer = @TokenizerDef(factory = KeywordTokenizerFactory.class),
filters = {
    @TokenFilterDef(factory = ASCIIFoldingFilterFactory.class),
    @TokenFilterDef(factory = LowerCaseFilterFactory.class),
    @TokenFilterDef(factory = PatternReplaceFilterFactory.class, params = {
        @Parameter(name = "pattern", value = "('-&\\.,\\(\\))"),
        @Parameter(name = "replacement", value = " "),
        @Parameter(name = "replace", value = "all")
    }),
    @TokenFilterDef(factory = PatternReplaceFilterFactory.class, params = {
        @Parameter(name = "pattern", value = "([^0-9\\p{L} ])"),
        @Parameter(name = "replacement", value = ""),
        @Parameter(name = "replace", value = "all")
    }),
    @TokenFilterDef(factory = TrimFilterFactory.class)
}
)
public class KikaPaya implements Serializable {

@Fields({ @Field(index = Index.YES, store = Store.YES), @Field(name = "KikaPayaName_for_sort", index = Index.YES, analyzer = @Analyzer(definition = "myOwnAnalyzer")) })
@Column(name = "NAME", length = 100)
private String name;

主要：

  FullTextEntityManager ftem = Search.getFullTextEntityManager(factory.createEntityManager());
  QueryBuilder qb = ftem.getSearchFactory().buildQueryBuilder().forEntity( KikaPaya.class ).get();
  org.apache.lucene.search.Query query = qb.all().getQuery(); 
  FullTextQuery fullTextQuery = ftem.createFullTextQuery(query, KikaPaya.class);
  fullTextQuery.setSort(new Sort(new SortField("KikaPayaName_for_sort", SortField.STRING, true)));
  fullTextQuery.setFirstResult(0).setMaxResults(150);
  int size = fullTextQuery.getResultSize();
  List<KikaPaya> result = fullTextQuery.getResultList();
  for (KikaPayauser : result) {
    logger.info("KikaPaya Name:" + user.getName());
  }

以下是 Lucene 的版本（我无法更改）：

 <hibernate.version>4.2.8.Final</hibernate.version>
    <hibernate.search.version>4.3.0.Final</hibernate.search.version>

  <dependency>
        <groupId>org.hibernate</groupId>
        <artifactId>hibernate-entitymanager</artifactId>
        <version>4.2.8.Final</version>
    </dependency>
<dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-core</artifactId>
        <version>3.6.2</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-analyzers</artifactId>
        <version>3.6.2</version>
    </dependency>

有人可以建议获得正确结果的方法吗？

Answer 1

我必须承认这并不常见。 据我所知，有一个 Lucene 模块，它使用 ICU 进行区域设置相关排序。

请参阅 lucene-icu 工件，尤其是 ICUCollationKeyFilter 和 ICUCollationKeyAnalyzer（分析器是带有过滤器的 KeywordTokenizer）。 您将需要创建将其与 Hibernate Search 一起使用所需的工厂，但这应该很容易。

不能真正保证它会起作用，但这可能是您最好的选择。

Answer 2

您可以在 Hibernate Search 版本 4.3.0.Final 中使用org.apache.lucene.collation.CollationKeyFilter类。 创建您自己的排序规则过滤器工厂：

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.collation.CollationKeyFilter;
import org.apache.solr.analysis.BaseTokenFilterFactory;

import java.text.Collator;
import java.util.Locale;

public final class NorwegianCollationFactory extends BaseTokenFilterFactory {

    @Override
    public TokenStream create(TokenStream input) {
        Collator norwegianCollator = Collator.getInstance(new Locale("no", "NO"));
        return new CollationKeyFilter(input, norwegianCollator);
    }

}

并在您的 AnalyzerDef 中使用此整理工厂：

@AnalyzerDef(name = "myOwnAnalyzer",
tokenizer = @TokenizerDef(factory = KeywordTokenizerFactory.class),
filters = {
    @TokenFilterDef(factory = ASCIIFoldingFilterFactory.class),
    @TokenFilterDef(factory = LowerCaseFilterFactory.class),
    @TokenFilterDef(factory = PatternReplaceFilterFactory.class, params = {
        @Parameter(name = "pattern", value = "('-&\\.,\\(\\))"),
        @Parameter(name = "replacement", value = " "),
        @Parameter(name = "replace", value = "all")
    }),
    @TokenFilterDef(factory = PatternReplaceFilterFactory.class, params = {
        @Parameter(name = "pattern", value = "([^0-9\\p{L} ])"),
        @Parameter(name = "replacement", value = ""),
        @Parameter(name = "replace", value = "all")
    }),
    @TokenFilterDef(factory = TrimFilterFactory.class)
,
    @TokenFilterDef(factory = NorwegianCollationFactory .class)
}
)
public class KikaPaya implements Serializable {

有关将此排序规则过滤器与休眠搜索版本 5一起使用的更多信息 - https://stackoverflow.com/a/60738067/7179509

如何使用 Hibernate Lucene Search 对挪威字符（Æ、Ø 和 Å）进行不区分大小写的排序？

问题描述

2 个解决方案

解决方案1
4 2016-09-01 22:19:48

解决方案2
3 已采纳 2020-03-18 11:22:13

如何使用 Hibernate Lucene Search 对挪威字符（Æ、Ø 和 Å）进行不区分大小写的排序？

问题描述

2 个解决方案

解决方案1 4 2016-09-01 22:19:48

解决方案2 3 已采纳 2020-03-18 11:22:13

解决方案1
4 2016-09-01 22:19:48

解决方案2
3 已采纳 2020-03-18 11:22:13