簡體   English   中英

Elasticsearch:具有多個字段的單個“更喜歡此”查詢與具有單個字段的多個“更喜歡此”查詢

[英]Elasticsearch: Single “more-like-this” query with multiple fields vs Multiple “more-like-this” query with single fields

Elasticsearch允許通過其“更多類似”(MLT)查詢來搜索相似文檔。 我試圖更好地理解和調整查詢以更好地找到相似的文檔。

在進行實驗時,我發現來自多個字段的單個MLT查詢的結果與每個字段一個的多個MLT查詢的布爾值產生不同的結果。 以下示例(被截斷):

具有多個字段的單個MLT查詢

es.search(index=INDEX_NAME, body = {'query': {
    "more_like_this" : {
        "fields" : ['title', 'category_name', 'brand'],
        "like" : []
        }
    }
})

具有單個字段的多個MLT查詢

es.search(index=INDEX_NAME, body = {'query': {
    'bool': {
                'should': [
                    {'more_like_this' : {
                    'fields' : ['title'],
                    'like' : [],
                    }},

                    {'more_like_this' : {
                    'fields' : ['category_name'],
                    'like' : [],
                    }},

                    {'more_like_this' : {
                    'fields' : ['brand'],
                    'like' : [],
                    }},
                ]
            }
    }
})

為什么會這樣?

我知道MLT查詢將合並單個查詢中列出的所有字段中的文本以搜索文檔。 但是,標題,類別名稱和品牌字段中的文本沒有重疊。 因此,結果相同。 但是,結果卻有所不同-多個MLT查詢的效果更好。

如果這個問題沒有直接的解決方法,我深表歉意。 我希望彈性專家對如何改進返回的查詢有更多的了解。

如果您有時間,這是我在MLT上發布的上一個問題,但仍未得到解答: Elasticsearch針對字段的“ more_like_this”查詢

如果我理解正確,則在兩種不同情況下,規范化過程會在字段內進行,而跨字段進行。 分數將通過字段字符串的長度,出現的次數等進行歸一化。如果這在字段之間差異很大,那么您將不會期望兩個查詢的結果相同。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM