繁体 English 中英

BigQuery 基于列值的并行处理

[英]Bigquery parallel processing based on column value

原文 2022-12-13 15:17:41 5 1 sql/ google-bigquery

我有一个包含两列的表student_record

学生编号：int
结果：元组数组 (int, int): (subjectId, score)

我需要对每个主题分别进行分析，并且有 100 多个主题。 现在我只是循环遍历所有 subject 并将以下查询s output 保存到 dataframe 并进行分析

SELECT studentId, res.subject, res.score 
FROM student_record, UNNEST(result) res 
WHERE res.subject = s

此查询可能需要很长时间才能完成（100 多个科目，1 亿学生）并且需要为每个科目运行。

我想知道是否有更好的方法在 BQ 中通过并行处理执行此类任务（例如，运行单个查询并将结果保存到按主题索引的本地文件中？）。

1 个解决方案

这个查询非常简单，应该很快。 如果您要将数百万行写入 dataframe，那可能是您的瓶颈。 我会考虑以下方法之一：

尝试在 BQ 中而不是在脚本中进行分析。 这取决于你做的分析，但 BQ 有基本的统计功能。

with data as (
      select studentId, res.subject, res.score 
      from student_record, unnest(result) res 
)
select
    subject,
    count(distinct studentID) as student_count,
    avg(score) as avg_score,
    max(score) as max_score,
    min(score) as min_score,
    variance(score) as var_score,
    stddev(score) as std_dev_score,
    --- etc etc
from data
group by subject

如果您确实需要将每个 studentID 和每个科目的分数写入 dataframe，我建议将您的查询具体化为一个表并按科目聚类。 您的后续查询（按主题过滤时）将更有效（也更便宜）。

create table dataset.student_record_clustered_by_subject
(  
  studentId string, -- or int depending on makeup of your column
  subject string, 
  score int -- or decimal if you have decimal places
)
cluster by subject
as (
      select studentId, res.subject, res.score 
      from student_record, unnest(result) res 
);

根据列值在 bigquery 中获取列名

[英]get column names in bigquery based on the column value

根据 bigquery 中的列值删除行

[英]remove rows based on column value in bigquery

基于最大值 BigQuery 的增量

[英]Increment based on max value BigQuery

Select 其他表作为 BigQuery 中基于日期时间的列

[英]Select other table as a column based on datetime in BigQuery

提取 substring 并在 Bigquery 列中获取第二个值

[英]Extract a substring and take second value in a Bigquery Column

根据 bigquery 中的条件从现有列添加派生列

[英]Add derived column from existing column based on a condition in bigquery

如何根据 BigQuery 中的唯一值对元素进行计数

[英]How to count elements based on a unique value in BigQuery

如何根据 BigQuery 中另一列的条件显示值的计数

[英]How to show a count of values based on condition of another column in BigQuery

根据 BigQuery 中具有相同值的连续行创建条件列

[英]Creating a conditional column based on consecutive rows with same values in BigQuery

Bigquery：根据另一个表中设置的条件更新列

[英]Bigquery: Update column based on condition set in another table

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 根据列值在 bigquery 中获取列名根据 bigquery 中的列值删除行基于最大值 BigQuery 的增量 Select 其他表作为 BigQuery 中基于日期时间的列提取 substring 并在 Bigquery 列中获取第二个值根据 bigquery 中的条件从现有列添加派生列如何根据 BigQuery 中的唯一值对元素进行计数如何根据 BigQuery 中另一列的条件显示值的计数根据 BigQuery 中具有相同值的连续行创建条件列 Bigquery：根据另一个表中设置的条件更新列

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM