资源超过 BigQuery

Question

运行以下查询时出现错误：

查询执行期间超出资源：无法在分配的内存中执行查询。 峰值使用：限制的 158%。 顶级内存消费者：用于分析 OVER() 子句的排序操作：98% 其他/未归因：2%

select *, row_number() over(PARTITION BY Column_A ORDER BY Column_B)
from
(SELECT
*
FROM
  Table_1 UNION ALL
SELECT
  *
FROM
  Table_2 UNION ALL
SELECT
  *
FROM
  Table_3
)

有人可以帮助我如何更改此查询，或者我们是否可以更改 bigquery 中的内存限制？

Answer 1

欢迎亚伦，

此错误意味着 BigQuery 由于内存限制无法处理整个查询， ORDER BY函数占用大量内存，请尝试将其删除，我希望您的查询能够正常运行。

如果您需要对结果进行排序，请尝试将无序查询写入一个表，然后在该表上运行一个新查询来对结果进行排序。

如果你有兴趣。 这是一篇关于 BigQuery 如何在内存中执行的有趣文章： https ://cloud.google.com/blog/products/gcp/in-memory-query-execution-in-google-bigquery

我不相信您可以覆盖或更改此内存限制，但很高兴被证明是错误的。

Answer 2

确保你的ORDER BY在真正的最后一步被执行，此外，考虑使用LIMIT子句来避免“ Resources Exceeded ”或“ Response too large ”失败。

Answer 3

我在这里的主要建议是确保使用分区和集群。

分区适用于日期字段，因此如果您的 Table_1、Table_2... 有一个分区。

集群也极大地帮助 OVER 子句的内存成本与 ORDER BY 因为它对存储块进行排序（ BigQuery 文档）

为了充分利用上述两者，我还将用临时表替换您的 UNION ALL 子查询。 将 UNION ALL 的结果存储到内存中，对结果数据集进行分区+聚类，然后才计算排名在内存和存储方面效率更高（中篇文章）

您的最终陈述应类似于：

CREATE TEMP TABLE tmp
PARTITION BY date
CLUSTER BY column_A, column_B
AS
SELECT
*
FROM
  Table_1 UNION ALL
SELECT
  *
FROM
  Table_2 UNION ALL
SELECT
  *
FROM
  Table_3
;

select *, row_number() over(PARTITION BY Column_A ORDER BY Column_B) from tmp

Answer 4

我以前遇到过这个，结果我试图按具有“NULL”值的列进行分区。 删除 NULL 记录有效！

Answer 5

您可以在不使用 ORDER BY 的情况下尝试 OVER

资源超过 BigQuery

问题描述

5 个解决方案

解决方案1
9 2018-12-12 09:22:44

解决方案2
2 2020-02-01 17:36:24

解决方案3
0 2022-10-27 08:17:00

解决方案4
0 2022-11-03 14:02:42

解决方案5
-4 2018-12-12 19:35:20

资源超过 BigQuery

问题描述

5 个解决方案

解决方案1 9 2018-12-12 09:22:44

解决方案2 2 2020-02-01 17:36:24

解决方案3 0 2022-10-27 08:17:00

解决方案4 0 2022-11-03 14:02:42

解决方案5 -4 2018-12-12 19:35:20

解决方案1
9 2018-12-12 09:22:44

解决方案2
2 2020-02-01 17:36:24

解决方案3
0 2022-10-27 08:17:00

解决方案4
0 2022-11-03 14:02:42

解决方案5
-4 2018-12-12 19:35:20