[英]Solr proximity search scoring
我是 Solr 的新手,正在研究基本的評分模型。 我知道基本評分模型使用布爾值生成文檔集,然后使用向量空間模型根據相關性進行評分。 我想知道的是,在使用 Proximity 搜索時,搜索結果是否也會在生成后根據向量空間模型進行排名,還是只是根據編輯距離進行評分?
首先,在org.apache.lucene.search.similarities.TFIDFSimilarity
使用了 VSM 分數(請記住,它不是最近版本的 Lucene 中的默認相似度)。 例如, org.apache.lucene.search.similarities.BM25Similarity
實現了類似的東西,但稱為詞袋。
在鄰近搜索的情況下,基類org.apache.lucene.search.similarities.Similarity有一個嵌套類Similarity.SimScorer
負責對“草率”查詢(如SpanQuery
和PhraseQuery
。 通常,有一種計算sloppyFreq
的方法,它是編輯距離的函數,並作為附加系數添加到公式中。
sloppyFreq
的默認實現之一是1.0f / (distance + 1)
,但當然可以根據您的需要對其進行自定義。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.