繁体   English   中英

Elasticsearch - 具有大量桶的子聚合

[英]Elasticsearch - sub aggregation with a large amount of buckets

我们有一个包含大量用户报告的索引(百万/千万)。 假设大多数用户都有报告,我们需要计算每个用户的一些统计数据。 例如,有多少用户在特定时间间隔内每周平均有 10-15、15-20、20-30 份报告。 请注意,我们不需要在响应中返回存储桶本身,但它们需要由计算平均值和范围的子聚合进行评估。 据我了解,elasticsearch对bucket的数量有限制,不建议增加到百万。 我已经阅读了关于分页的复合聚合,但我认为这不适合这种情况,因为我们需要计算聚合数字而不是返回存储桶。

下面是我们当前查询的简化版本。 我们想要计算在 2 个日期之间的 X1-X2 月度报告之间的使用次数。

  1. 按用户 ID 存储报告。
  2. 使用桶选择器到 select 仅具有 YZ 报告之间的用户(Y1 和 Y2 由客户端预先计算 - 这些数字将解析为 X1-X2 月度报告之间的平均值)。
  3. 计算剩余的桶数

问题是原始分桶(术语聚合)只会返回相对少量的桶(不是数百万),因此只会评估少量用户。 实现这一目标的最佳方法是什么?

POST /reports/_search
{
     "size": 0,
     "query": {
         "range": {
             "timestamp": {
                 "gte": "2020-01-01T00:00:00.000Z",
                 "lte": "2020-12-24T23:59:59.999Z",
                 "format": "strict_date_optional_time"
             }
         }
     },
     "aggs": {
         "distinctIds_less_than_monthly": {
             "terms": {
                 "field": "userId" // this will only return a small amount of buckets
             },
             "aggs": {
                 "less_than_monthly": {
                     "bucket_selector": {
                         "buckets_path": {
                             "distinctUsers": "distinctUsers_less_than_monthly.value"
                         },
                         "script": "params.distinctUsers > 1000 && params.distinctUsers < 1500"
                     }
                 },
                 "distinctUsers_less_than_monthly": {
                     "value_count": {
                         "field": "userId"
                     }
                 }                 
             }
         },
         "userCount_less_than_monthly": {
             "stats_bucket": {
                 "buckets_path": "distinctIds_less_than_monthly._count"
             }
         }
     }
}

我基本上看到了 3 个优化,所有这些都共享一个 map → 组合方法:

  1. 用您选择的语言编写脚本,将 1Y 范围拆分为月/周,运行查询并组合结果。
  2. 在运行术语聚合之前应用某种过滤器——首先计算最有价值用户的用户统计数据(按收入、每日活跃使用量等选择他们),然后是 rest。 然后结合。
  3. 例如,通过姓名首字母对用户进行预分组,并在这些组中运行terms aggs。 然后结合。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM