Elasticsearch-根據計數和唯一性進行聚合和排序

Question

我有一個問題，我不確定如何解決。

想象一下，我有來自不同用戶的一些推文，並且想知道哪些單詞最常用於特定用戶。 為了使其更有趣，我想通過在所有tweet（來自所有用戶）的上下文中單詞的獨特性來增加計數。

因此，可以說一個用戶總共在推文中發布了“ stackoverflow”一詞四次，而“ stackoverflow”僅被該用戶使用。 同一用戶在推文中還多次推文“ I”，“ for”和“是”（例如10），但這些推文也被其他用戶的大量推文推文。

我想找到一個查詢，該查詢可以將“ stackoverflow”的計數/分數提高到比“ for”的計數/分數更高的水平。

在這種情況下，elasticsearch類型將包含一個帶有完整推文（“ tweet”）的字符串，一個未經分析的數組，其中包含推文中使用的單詞（“ tweetedWords”）和用戶名（“ user”）。

有任何想法嗎？

Answer 1

找到正確的Google關鍵字（“頻率上的elasticsearch匯總”）后，我找到了所要查找的：有意義的術語。

{
  "query" : {
    "terms": {"user": ["{user}"]}
  },
  "size": 0,
  "aggs": {
    "tweetedWords": {
      "significant_terms": {
        "field": "tweetedWords"
      }
    }
  }
}

Elasticsearch-根據計數和唯一性進行聚合和排序

問題描述

1 個解決方案

解決方案1
2 已采納 2016-01-26 20:12:59

Elasticsearch-根據計數和唯一性進行聚合和排序

問題描述

1 個解決方案

解決方案1 2 已采納 2016-01-26 20:12:59

解決方案1
2 已采納 2016-01-26 20:12:59