繁体   English   中英

将数据直接加载到Google BigQuery与首先通过云存储加载数据的优缺点是什么?

[英]What are the pros and cons of loading data directly into Google BigQuery vs going through Cloud Storage first?

另外,在BigQuery中直接进行转换/连接有什么问题吗? 我想最小化我正在设置的数据仓库所涉及的组件和步骤的数量(一系列零售商店的简单交易和库存数据。)

好吧,如果你通过GCS,这意味着你没有流式传输数据,从文件到BQ的加载是免费的,文件大小可达5TB。 这有时是优势,大文件能力和免费。 streamin也是实时的,通过GCS意味着它不是实时的。

如果要直接将数据流式传输到具有成本的BQ表中。 目前流媒体的价格为每200 MB(2018年6月)0.01美元,因此1TB约为50美元。

另一方面,如果您可以表达任务,则可以使用SQL完成转换。 否则你有很多选择,人们大多数时候都会使用Dataflow来改造东西。 有关高级示例,请参阅链接的教程。

再看看
Cloud Dataprep - 数据准备和数据清理
Google Data Studio:轻松构建自定义报告和信息中心

也是一个高级的例子:

从关系数据库执行ETL到BigQuery

通过云存储加载数据是最快(也是最便宜)的方式。 直接加载可以通过app完成(使用流媒体插入,增加一些额外的成本)

对于做转换 - 如果您计划/需要做什么可以在BigQuery中完成 - 您应该在BigQuery中完成:) - 这是做ETL的最佳和最快的方式。 但是你应该考虑运行查询的成本(如果你没有为谷歌支付插槽 - 它可能是每1TB扫描5美元)

复杂ETL的另一个好选择是使用数据流 - 但它可以非常快速地变得昂贵 - 以换取更多的灵活性。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM