[英]Solr proximity search scoring
我是 Solr 的新手,正在研究基本的评分模型。 我知道基本评分模型使用布尔值生成文档集,然后使用向量空间模型根据相关性进行评分。 我想知道的是,在使用 Proximity 搜索时,搜索结果是否也会在生成后根据向量空间模型进行排名,还是只是根据编辑距离进行评分?
首先,在org.apache.lucene.search.similarities.TFIDFSimilarity
使用了 VSM 分数(请记住,它不是最近版本的 Lucene 中的默认相似度)。 例如, org.apache.lucene.search.similarities.BM25Similarity
实现了类似的东西,但称为词袋。
在邻近搜索的情况下,基类org.apache.lucene.search.similarities.Similarity有一个嵌套类Similarity.SimScorer
负责对“草率”查询(如SpanQuery
和PhraseQuery
。 通常,有一种计算sloppyFreq
的方法,它是编辑距离的函数,并作为附加系数添加到公式中。
sloppyFreq
的默认实现之一是1.0f / (distance + 1)
,但当然可以根据您的需要对其进行自定义。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.