[英]Elasticsearch: Single “more-like-this” query with multiple fields vs Multiple “more-like-this” query with single fields
Elasticsearch允許通過其“更多類似”(MLT)查詢來搜索相似文檔。 我試圖更好地理解和調整查詢以更好地找到相似的文檔。
在進行實驗時,我發現來自多個字段的單個MLT查詢的結果與每個字段一個的多個MLT查詢的布爾值產生不同的結果。 以下示例(被截斷):
具有多個字段的單個MLT查詢
es.search(index=INDEX_NAME, body = {'query': {
"more_like_this" : {
"fields" : ['title', 'category_name', 'brand'],
"like" : []
}
}
})
具有單個字段的多個MLT查詢
es.search(index=INDEX_NAME, body = {'query': {
'bool': {
'should': [
{'more_like_this' : {
'fields' : ['title'],
'like' : [],
}},
{'more_like_this' : {
'fields' : ['category_name'],
'like' : [],
}},
{'more_like_this' : {
'fields' : ['brand'],
'like' : [],
}},
]
}
}
})
為什么會這樣?
我知道MLT查詢將合並單個查詢中列出的所有字段中的文本以搜索文檔。 但是,標題,類別名稱和品牌字段中的文本沒有重疊。 因此,結果應相同。 但是,結果卻有所不同-多個MLT查詢的效果更好。
如果這個問題沒有直接的解決方法,我深表歉意。 我希望彈性專家對如何改進返回的查詢有更多的了解。
如果您有時間,這是我在MLT上發布的上一個問題,但仍未得到解答: Elasticsearch針對字段的“ more_like_this”查詢
如果我理解正確,則在兩種不同情況下,規范化過程會在字段內進行,而跨字段進行。 分數將通過字段字符串的長度,出現的次數等進行歸一化。如果這在字段之間差異很大,那么您將不會期望兩個查詢的結果相同。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.