繁体 English 中英

Solr邻近搜索评分

[英]Solr proximity search scoring

原文 2017-10-25 07:52:02 1 1 solr/ lucene

我是 Solr 的新手，正在研究基本的评分模型。 我知道基本评分模型使用布尔值生成文档集，然后使用向量空间模型根据相关性进行评分。 我想知道的是，在使用 Proximity 搜索时，搜索结果是否也会在生成后根据向量空间模型进行排名，还是只是根据编辑距离进行评分？

1 个解决方案

首先，在org.apache.lucene.search.similarities.TFIDFSimilarity使用了 VSM 分数（请记住，它不是最近版本的 Lucene 中的默认相似度）。 例如， org.apache.lucene.search.similarities.BM25Similarity实现了类似的东西，但称为词袋。

在邻近搜索的情况下，基类org.apache.lucene.search.similarities.Similarity有一个嵌套类Similarity.SimScorer负责对“草率”查询（如SpanQuery和PhraseQuery 。 通常，有一种计算sloppyFreq的方法，它是编辑距离的函数，并作为附加系数添加到公式中。

sloppyFreq的默认实现之一是1.0f / (distance + 1) ，但当然可以根据您的需要对其进行自定义。