簡體 English 中英

Solr鄰近搜索評分

[英]Solr proximity search scoring

原文 2017-10-25 07:52:02 3 1 solr/ lucene

我是 Solr 的新手，正在研究基本的評分模型。 我知道基本評分模型使用布爾值生成文檔集，然后使用向量空間模型根據相關性進行評分。 我想知道的是，在使用 Proximity 搜索時，搜索結果是否也會在生成后根據向量空間模型進行排名，還是只是根據編輯距離進行評分？

1 個解決方案

首先，在org.apache.lucene.search.similarities.TFIDFSimilarity使用了 VSM 分數（請記住，它不是最近版本的 Lucene 中的默認相似度）。 例如， org.apache.lucene.search.similarities.BM25Similarity實現了類似的東西，但稱為詞袋。

在鄰近搜索的情況下，基類org.apache.lucene.search.similarities.Similarity有一個嵌套類Similarity.SimScorer負責對“草率”查詢（如SpanQuery和PhraseQuery 。 通常，有一種計算sloppyFreq的方法，它是編輯距離的函數，並作為附加系數添加到公式中。

sloppyFreq的默認實現之一是1.0f / (distance + 1) ，但當然可以根據您的需要對其進行自定義。