[英]Elasticsearch - aggregate and sort based on count and uniqueness
我有一個問題,我不確定如何解決。
想象一下,我有來自不同用戶的一些推文,並且想知道哪些單詞最常用於特定用戶。 為了使其更有趣,我想通過在所有tweet(來自所有用戶)的上下文中單詞的獨特性來增加計數。
因此,可以說一個用戶總共在推文中發布了“ stackoverflow”一詞四次,而“ stackoverflow”僅被該用戶使用。 同一用戶在推文中還多次推文“ I”,“ for”和“是”(例如10),但這些推文也被其他用戶的大量推文推文。
我想找到一個查詢,該查詢可以將“ stackoverflow”的計數/分數提高到比“ for”的計數/分數更高的水平。
在這種情況下,elasticsearch類型將包含一個帶有完整推文(“ tweet”)的字符串,一個未經分析的數組,其中包含推文中使用的單詞(“ tweetedWords”)和用戶名(“ user”)。
有任何想法嗎?
找到正確的Google關鍵字(“頻率上的elasticsearch匯總”)后,我找到了所要查找的:有意義的術語。
{
"query" : {
"terms": {"user": ["{user}"]}
},
"size": 0,
"aggs": {
"tweetedWords": {
"significant_terms": {
"field": "tweetedWords"
}
}
}
}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.