繁体   English   中英

将数据从谷歌云存储加载到 BigQuery

[英]Loading data from google cloud storage to BigQuery

我需要从 Google Cloud Storage(GCS -> Temp table -> Main table)将 100 个表加载到 BigQuery。 我创建了一个 python 进程来将数据加载到 BigQuery 并在 AppEngine 中进行调度。 因为我们有 AppEngine 的最大 10 分钟超时。 我已在异步模式下提交作业,并在稍后检查作业状态。 由于我有 100 个表需要创建一个监控系统来检查作业负载的状态。

需要维护几个表和一堆视图来检查作业状态。

操作过程并不复杂。 有没有更好的办法?

谢谢

当我们这样做时,我们简单地使用了 Beanstalkd 之类的消息队列,我们​​在其中推送了一些稍后必须检查的内容,并且我们编写了一个订阅该频道并处理任务的小 Worker。

另一方面:BigQuery 支持直接从 Google Cloud Storage 查询数据。

用例:
- 通过从联合数据源(BigQuery 外部的位置)查询数据并将清理后的结果写入 BigQuery 存储,一次性加载和清理数据。
- 有少量频繁更改的数据与其他表连接。 作为联邦数据源,频繁变化的数据不需要每次更新都重新加载。

https://cloud.google.com/bigquery/federated-data-sources

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM