簡體   English   中英

Lucene搜索評分問題

[英]Lucene search scoring issue

我有兩個索引是從目錄“ test1”和“ test2”創建的。 “test1”目錄有“file1.java”,而“test2”有兩個文件“file1.java”和“file2.java”。 “file1.java”在兩個目錄中都是相同的。 令索引分別為index1和index2。

現在,當我使用luke分析這兩個索引時,我發現在index1中搜索的關鍵字的分數與index2中生成的分數不同。 該關鍵字僅存在於“ file1.java”中。

為什么分數不同? 在Lucene中有什么索引可以強迫得分相同的方法嗎?

lucene中的分數允許您將查詢結果的相關性與單個查詢進行比較。 它們的設計不允許您比較不同索引之間或不同查詢之間的結果,或保存它們並將它們與以后的運行進行比較。 它們僅對返回的查詢結果集和索引的當前狀態有效。 有關為什么以這種方式使用Lucene分數不是一個好主意 ,請參閱這篇關於Lucene分數作為百分比的文章。

畢竟,Lucene是使用TF-IDF算法評分的。 您應該期望IDF分數在具有更多內容的索引中有所不同。 TFIDFSimilarity文檔詳細描述了評分算法。

如果您願意,您當然可以使用任何相似的實現,或者自己創建一個實現。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM