Solr-termfreq部分匹配

Question

我正在使用Solr來查詢一組文檔，並且我想獲取某個術語的匹配數量，現在我正在使用

termfreq(text,'manage')

但是，這不會影響到Manager或Management

termfreq(text,'manage*')

返回相同的計數。 我嘗試使用不同的標記生成器，有些甚至不接受* ，也找不到返回正確匹配數的標記生成器。

領域：

<field name="text" type="text_general" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" required="false"/>

有什么辦法可以讓termfreq也計算部分匹配嗎？

Answer 1

您將需要向分析器添加一些自定義標記器和過濾器類。

在您的/shared/field_types.xml文件中，創建一個新的類型，如下所示：

<fieldType name="text" class="solr.TextField" omitNorms="false">
    <analyzer>
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StandardFilterFactory"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
</fieldType>

在/shared/fields.xml中：

<field name="text" stored="true" type="text" multiValued="false" indexed="true"/> 
<dynamicField name="*_text" stored="true" type="text" multiValued="false" indexed="true"/>

並將其用作“文本”作為字段的類型。

更高級的解決方案：

 <fieldType name="startsWith" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
      <tokenizer class="solr.KeywordTokenizerFactory"/>
      <filter class="solr.LowerCaseFilterFactory"/>
      <!-- remove words/chars we don't care about -->
      <filter class="solr.PatternReplaceFilterFactory" pattern="[^a-zA-Z0-9 ]" replacement="" replace="all"/>
      <!-- now remove any extra space we have, since spaces WILL influence matching -->
      <filter class="solr.PatternReplaceFilterFactory" pattern="\s+" replacement=" " replace="all"/>
      <filter class="solr.TrimFilterFactory"/>
      <filter class="solr.ASCIIFoldingFilterFactory"/>
      <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.KeywordTokenizerFactory"/>
      <filter class="solr.LowerCaseFilterFactory"/>
      <filter class="solr.PatternReplaceFilterFactory" pattern="[^a-zA-Z0-9 ]" replacement="" replace="all"/>
      <filter class="solr.PatternReplaceFilterFactory" pattern="\s+" replacement=" " replace="all"/>
      <filter class="solr.TrimFilterFactory"/>
      <filter class="solr.ASCIIFoldingFilterFactory"/>
    </analyzer>
  </fieldType>

在/shared/fields.xml中：

<dynamicField name="*_starts_with" stored="true" type="startsWith" multiValued="false" indexed="true"/>

然后，在核心的schema.xml的頂層添加以下內容：

<xi:include xmlns:xi="http://www.w3.org/2001/XInclude" href="../../../shared/fields.xml"/>
<xi:include xmlns:xi="http://www.w3.org/2001/XInclude" href="../../../shared/field_types.xml"/>

並將其添加到核心的schema.xml中的copyFields中：

 <copyFields>
      <copyField source="yourField" dest="yourField_text"/>
      <copyField source="yourField" dest="yourField_starts_with"/>
      ...
 </copyFields>

Answer 2

我曾經也有過一樣的問題。 我需要計算termfreq，它也應該與單詞的各個部分匹配。 添加此FieldType解決了它。

<fieldType name="startWith" class="solr.TextField">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" />
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

Solr-termfreq部分匹配

問題描述

2 個解決方案

解決方案1
0 2015-02-09 18:55:14

解決方案2
0 2018-03-01 07:17:15

Solr-termfreq部分匹配

問題描述

2 個解決方案

解決方案1 0 2015-02-09 18:55:14

解決方案2 0 2018-03-01 07:17:15

解決方案1
0 2015-02-09 18:55:14

解決方案2
0 2018-03-01 07:17:15