在 Solr 中使用不同的語言停用詞

Question

Solr 在托管模式中為不同語言（如英語、法語、日語等）提供了一些現成的數據類型。

我們使用通用數據類型“text_general”進行字段聲明，並使用 stopwards.txt 進行停用詞過濾。

    <analyzer type="index">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
      <filter class="solr.LowerCaseFilterFactory"/>
      <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="1"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
      <filter class="solr.SynonymGraphFilterFactory" expand="true" ignoreCase="true" synonyms="synonyms.txt"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
  </fieldType>

在將數據同步到 Solr 內核時，我們正在導入不同語言的文本，例如法語、英語、德語 etch。

我的問題是我們應該在同一個“stopwards.txt”文件中使用所有不同的語言停用詞還是 solr 如何使用不同的語言停用詞？

Answer 1

不要刪除停用詞。 停用詞刪除是 1970 年代 32 位機器遺留下來的一種磁盤空間節省技巧。

我從來沒有刪除停用詞，25 年前我開始在 Infoseek 從事搜索工作（它沒有刪除停用詞）。

從索引中刪除它們會使某些查詢變得不可能，例如“維生素 a”。 當我在 Netflix 構建搜索時，我不小心配置了停用詞刪除，並發現了一整套 100% 停用詞的電影標題。 該列表在此博客文章中。

https://observer.wunderwood.org/2007/05/31/do-all-stopword-queries-matter/

像 Solr 這樣的 tf.idf 系統中的“idf”分數與停用詞的作用相同，但效果更好。 它根據這個特定集合的統計數據給常用詞一個較低的分數。

不要刪除停用詞。

在 Solr 中使用不同的語言停用詞

問題描述

1 個解決方案

解決方案1
0 2021-02-12 17:28:22

在 Solr 中使用不同的語言停用詞

問題描述

1 個解決方案

解決方案1 0 2021-02-12 17:28:22

解決方案1
0 2021-02-12 17:28:22