如何配置 Solr 进行部分词匹配

Question

鉴于以下一组值，我如何配置字段以返回部分单词匹配但也匹配整个搜索词的值？

价值观：

Texas State University
Stanford University
St. Johns College

期望结果示例：

搜索词： sta

预期结果：

Texas State University
Stanford University

搜索词： stan

预期结果：

Stanford University

搜索词： st un

预期结果：

Texas State University
Stanford University

这是我迄今为止尝试过的：

<fieldType name="text" class="solr.TextField" omitNorms="false">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" words="stopwords.txt"/>
    <filter class="solr.StandardFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.PorterStemFilterFactory"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
  </analyzer>
</fieldType>

我认为我的问题出在EdgeNGramFilterFactory 。 如上所示，对stan的第二次搜索返回显示的所有三个值，而不是仅返回Stanford 。 但是，如果没有EdgeNGramFilterFactory ，部分单词根本不匹配。

Solr 字段返回部分单词匹配但也匹配整个搜索词的值的正确配置是什么？

Answer 1

我想我想通了。 不过，我绝对欢迎其他答案和其他更正。

解决方案似乎是只在索引时使用EdgeNGramFilterFactory ，而不是在查询时。 当你考虑它时，这是有道理的。 我在索引时想要 n-gram，但只想在查询时匹配实际的搜索词。

<fieldType name="text" class="solr.TextField" omitNorms="false">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" words="stopwords.txt"/>
    <filter class="solr.StandardFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.PorterStemFilterFactory"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" words="stopwords.txt"/>
    <filter class="solr.StandardFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.PorterStemFilterFactory"/>
  </analyzer>
</fieldType>

Answer 2

我有类似的要求并尝试了这个......创建了不同的字段类型......

<fieldType name="text_reference" class="solr.TextField" sortMissingLast="true" omitNorms="true" positionIncrementGap="100">
      <analyzer type="index">
    <tokenizer class="solr.KeywordTokenizerFactory"/>
      <filter class="solr.LowerCaseFilterFactory"/>
      <filter class="solr.EdgeNGramFilterFactory" minGramSize="4" maxGramSize="50" side="front"/> 
      </analyzer>
      <analyzer type="query">
    <tokenizer class="solr.KeywordTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
  </fieldType>

我还有一个要求……下面的博客会详细解释

https://www.blogger.com/blogger.g?blogID=8592878860404675342#editor/target=post;postID=6309840933546641223;onPublishedMenu=allposts;onClosedMenu=allposts;postNum=33;src=postname

Answer 3

您可以使用

N-Gram 过滤器

生成给定范围内大小的 n-gram 标记。 请注意，令牌按位置排序，然后按 gramize 排序。

工厂类：solr.NGramFilterFactory

参数：

minGramSize：（整数，默认 1）最小克大小。 maxGramSize：（整数，默认 2）最大克大小。

例子：

<analyzer>  
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.NGramFilterFactory"/>
</analyzer>

在：“四分”

输出: "f", "o", "u", "r", "fo", "ou", "ur", "s", "c", "o", "r", "e", “sc”、“co”、“或”、“re”

http://archive.apache.org/dist/lucene/solr/ref-guide/apache-solr-ref-guide-5.3.pdf#page=112&zoom=auto,-187,475

如何配置 Solr 进行部分词匹配

问题描述

期望结果示例：

这是我迄今为止尝试过的：

3 个解决方案

解决方案1
13 已采纳 2015-02-26 22:18:52

解决方案2
1 2015-02-27 12:32:10

解决方案3
0 2020-03-20 00:57:08

如何配置 Solr 进行部分词匹配

问题描述

期望结果示例：

这是我迄今为止尝试过的：

3 个解决方案

解决方案1 13 已采纳 2015-02-26 22:18:52

解决方案2 1 2015-02-27 12:32:10

解决方案3 0 2020-03-20 00:57:08

解决方案1
13 已采纳 2015-02-26 22:18:52

解决方案2
1 2015-02-27 12:32:10

解决方案3
0 2020-03-20 00:57:08