簡體   English   中英

如何從650 M數據中獲取Elasticsearch中特定字段值的出現次數

[英]How to get occurrence count of specific field value in elasticsearch from 650 M data

我已經在ES中索引了Twitter數據。 Twitter共有1.1億個Twitter獨特用戶資料6.5億條Tweets 兩者都在單獨的索引(索引:twitter-profiles,類型:profiles)中,用於推文(索引:twitter-tweets,類型:tweets)。

每條推文都附有個人資料的user_id_str

我遇到問題以獲取特定用戶的出現次數 我使用了Facet / terms和Aggregation / Terms,但是都給了我PartialShardFailureException異常,因為有很多數據需要進行計算。 我使用以下查詢

{
"aggs" : {
    "userCount" : {
        "terms" : { "field" : "user_id_str" }
    }
  }
}

然后我再試一次。

我使用第二種方法Scan 在這里,我從個人檔案類型獲取個人檔案的ID,然后在推文類型中進行搜索。 它給了我結果,但是在2 OOps之后出現了單個結果。 有1.1億用戶,這意味着我不得不等待幾天。

對於這種情況,請給我任何合理的解決方案。

您可以結合使用基數聚合和術語過濾器

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM