Google BigQuery - 为什么 window function order by cause memory error although used with partition by

Question

我在 google BigQuery 中收到一个我不理解的 memory 错误：

我的基表（> 10 亿行）由一个用户 ID、每天和每天的余额增量组成。 从每天的 balance_increment 中，我想在每次有新的增量时返回总余额。 对于下一步，我还需要第二天有一个新的余额增量。 所以我这样做：

select 
    userID
    ,   date
    ,   sum(balance_increment) over (partition by userID order by date) as balance
    ,   lead(date, 1, current_date()) over (partition by userID order by date) as next_date
from my_base_table

尽管我在over子句中使用了partition by ，但由于排序操作（如果我正确理解了顺序依据？），我在该查询中遇到了 memory 错误：

BadRequest: 400 Resources exceeded during query execution: The query could not be executed in the allotted memory. Peak usage: 135% of limit.
Top memory consumer(s):
  sort operations used for analytic OVER() clauses: 98%
  other/unattributed: 2%

但是当我检查一个唯一用户 ID 出现的频率时，最多甚至不到 4000 次。 我知道我有一堆 userID（显然 > 3100 万，如图像（见下文）所示，但我认为在partition by时会在必要时分成不同的槽？

在这里，我检查单个 userID 出现的频率。 这个查询顺便说一句。 工作得很好：

SELECT
  userID
  , count(*) as userID_count
FROM my_base_table
GROUP BY userID
ORDER BY userID_count DESC

（抱歉，在图片中我称它为实体而不是用户 ID）

所以我的问题是：

我是否正确理解 memory 错误来自order by date ？
当我使用partition by时必须排序的次数少于 4000 次时，为什么这是一个大问题？
为什么我的第二个查询会运行，尽管最后我必须订购 > 3100 万行？
我该如何解决这个问题？

Answer 1

我解决了 memory 问题，按照@Samuel 的建议通过userID和date对基表进行预排序，他指出，预排序应该减少节点上的密钥交换 - 它起作用了！

With ordered_base_table as (
Select * from my_base_table order by userID, date
)

select 
    userID
    ,   date
    ,   sum(balance_increment) over (partition by userID order by date) as balance
    ,   lead(date, 1, current_date()) over (partition by userID order by date) as next_date
from ordered_base_table

谢谢！

Google BigQuery - 为什么 window function order by cause memory error although used with partition by

问题描述

1 个解决方案

解决方案1
1 已采纳 2022-12-12 07:17:30

Google BigQuery - 为什么 window function order by cause memory error although used with partition by

问题描述

1 个解决方案

解决方案1 1 已采纳 2022-12-12 07:17:30

解决方案1
1 已采纳 2022-12-12 07:17:30