簡體   English   中英

Elasticsearch-根據計數和唯一性進行聚合和排序

[英]Elasticsearch - aggregate and sort based on count and uniqueness

我有一個問題,我不確定如何解決。

想象一下,我有來自不同用戶的一些推文,並且想知道哪些單詞最常用於特定用戶。 為了使其更有趣,我想通過在所有tweet(來自所有用戶)的上下文中單詞的獨特性來增加計數。

因此,可以說一個用戶總共在推文中發布了“ stackoverflow”一詞四次,而“ stackoverflow”僅被該用戶使用。 同一用戶在推文中還多次推文“ I”,“ for”和“是”(例如10),但這些推文也被其他用戶的大量推文推文。

我想找到一個查詢,該查詢可以將“ stackoverflow”的計數/分數提高到比“ for”的計數/分數更高的水平。

在這種情況下,elasticsearch類型將包含一個帶有完整推文(“ tweet”)的字符串,一個未經分析的數組,其中包含推文中使用的單詞(“ tweetedWords”)和用戶名(“ user”)。

有任何想法嗎?

找到正確的Google關鍵字(“頻率上的elasticsearch匯總”)后,我找到了所要查找的:有意義的術語。

{
  "query" : {
    "terms": {"user": ["{user}"]}
  },
  "size": 0,
  "aggs": {
    "tweetedWords": {
      "significant_terms": {
        "field": "tweetedWords"
      }
    }
  }
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM