簡體 English 中英

為什么在Retrieve and Rank Solr查詢中，與第一個結果不完全匹配的文檔？

[英]Why isn't the document with an exact match the first result in a Retrieve and Rank Solr query?

原文 2016-08-30 17:03:52 8 1 solr/ ibm-watson/ retrieve-and-rank

我們已經收集了大量文檔，使用Watson的文檔轉換服務將它們分解為多個段（“答案單位”），並將它們添加到“檢索和Rank Solr”集合中。 如果我使用一個答案單位中的文本（可能為150個單詞）的復制/粘貼對集合進行查詢，則Retrieve和Rank將返回一堆文檔，並且（按預期）結果包括答案單位，查詢文本已復制。 但是，該答案單元並不是最高的結果。 通常是頂部的7或8個文檔。 如果我在查詢文本中用引號引起來，那么Solr會正確地考慮該短語並僅返回該單個答案單位。 但是，如果沒有引號，那么在查詢中具有確切措辭的文檔是否應該仍然是結果中的首要文檔？

1 個解決方案

似乎您正在使用/ select端點進行搜索。 它不應該使用詞組查詢來搜索，因此不應成為最主要的結果。 / select使用一個布爾查詢，該查詢考慮了諸如IDF分數之類的問題，以得出最終的Solr分數。 您已經看到通過添加引號，可以強制短語查詢，如果您的應用程序想要這樣做。 現在，這使您有責任知道要在應用程序上使用哪種查詢類型。

現在，如果您正在使用/ fcselect並對系統進行培訓，那么隨着時間的推移，排序程序將“學習”問題/文檔對中的短語最重要，如果確實如此。 然后它將開始對這些文檔重新排序。 RnR的本質是從查詢和文檔中學習如何將最相關的文檔放在頂部，而您的應用程序無需編寫其他（通常是時間復雜的）solr查詢來查找文檔。