Elasticsearch - 具有大量桶的子聚合

Question

我们有一个包含大量用户报告的索引（百万/千万）。 假设大多数用户都有报告，我们需要计算每个用户的一些统计数据。 例如，有多少用户在特定时间间隔内每周平均有 10-15、15-20、20-30 份报告。 请注意，我们不需要在响应中返回存储桶本身，但它们需要由计算平均值和范围的子聚合进行评估。 据我了解，elasticsearch对bucket的数量有限制，不建议增加到百万。 我已经阅读了关于分页的复合聚合，但我认为这不适合这种情况，因为我们需要计算聚合数字而不是返回存储桶。

下面是我们当前查询的简化版本。 我们想要计算在 2 个日期之间的 X1-X2 月度报告之间的使用次数。

按用户 ID 存储报告。
使用桶选择器到 select 仅具有 YZ 报告之间的用户（Y1 和 Y2 由客户端预先计算 - 这些数字将解析为 X1-X2 月度报告之间的平均值）。
计算剩余的桶数

问题是原始分桶（术语聚合）只会返回相对少量的桶（不是数百万），因此只会评估少量用户。 实现这一目标的最佳方法是什么？

POST /reports/_search
{
     "size": 0,
     "query": {
         "range": {
             "timestamp": {
                 "gte": "2020-01-01T00:00:00.000Z",
                 "lte": "2020-12-24T23:59:59.999Z",
                 "format": "strict_date_optional_time"
             }
         }
     },
     "aggs": {
         "distinctIds_less_than_monthly": {
             "terms": {
                 "field": "userId" // this will only return a small amount of buckets
             },
             "aggs": {
                 "less_than_monthly": {
                     "bucket_selector": {
                         "buckets_path": {
                             "distinctUsers": "distinctUsers_less_than_monthly.value"
                         },
                         "script": "params.distinctUsers > 1000 && params.distinctUsers < 1500"
                     }
                 },
                 "distinctUsers_less_than_monthly": {
                     "value_count": {
                         "field": "userId"
                     }
                 }                 
             }
         },
         "userCount_less_than_monthly": {
             "stats_bucket": {
                 "buckets_path": "distinctIds_less_than_monthly._count"
             }
         }
     }
}

Answer 1

我基本上看到了 3 个优化，所有这些都共享一个 map → 组合方法：

用您选择的语言编写脚本，将 1Y 范围拆分为月/周，运行查询并组合结果。
在运行术语聚合之前应用某种过滤器——首先计算最有价值用户的用户统计数据（按收入、每日活跃使用量等选择他们），然后是 rest。 然后结合。
例如，通过姓名首字母对用户进行预分组，并在这些组中运行terms aggs。 然后结合。

Elasticsearch - 具有大量桶的子聚合

问题描述

1 个解决方案

解决方案1
1 2020-12-26 23:33:33

Elasticsearch - 具有大量桶的子聚合

问题描述

1 个解决方案

解决方案1 1 2020-12-26 23:33:33

解决方案1
1 2020-12-26 23:33:33