![](/img/trans.png)
[英]Load data from Google Cloud Storage to BigQuery using Java
[英]Loading data from google cloud storage to BigQuery
我需要从 Google Cloud Storage(GCS -> Temp table -> Main table)将 100 个表加载到 BigQuery。 我创建了一个 python 进程来将数据加载到 BigQuery 并在 AppEngine 中进行调度。 因为我们有 AppEngine 的最大 10 分钟超时。 我已在异步模式下提交作业,并在稍后检查作业状态。 由于我有 100 个表需要创建一个监控系统来检查作业负载的状态。
需要维护几个表和一堆视图来检查作业状态。
操作过程并不复杂。 有没有更好的办法?
谢谢
当我们这样做时,我们简单地使用了 Beanstalkd 之类的消息队列,我们在其中推送了一些稍后必须检查的内容,并且我们编写了一个订阅该频道并处理任务的小 Worker。
另一方面:BigQuery 支持直接从 Google Cloud Storage 查询数据。
用例:
- 通过从联合数据源(BigQuery 外部的位置)查询数据并将清理后的结果写入 BigQuery 存储,一次性加载和清理数据。
- 有少量频繁更改的数据与其他表连接。 作为联邦数据源,频繁变化的数据不需要每次更新都重新加载。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.