簡體   English   中英

將數據直接加載到Google BigQuery與首先通過雲存儲加載數據的優缺點是什么?

[英]What are the pros and cons of loading data directly into Google BigQuery vs going through Cloud Storage first?

另外,在BigQuery中直接進行轉換/連接有什么問題嗎? 我想最小化我正在設置的數據倉庫所涉及的組件和步驟的數量(一系列零售商店的簡單交易和庫存數據。)

好吧,如果你通過GCS,這意味着你沒有流式傳輸數據,從文件到BQ的加載是免費的,文件大小可達5TB。 這有時是優勢,大文件能力和免費。 streamin也是實時的,通過GCS意味着它不是實時的。

如果要直接將數據流式傳輸到具有成本的BQ表中。 目前流媒體的價格為每200 MB(2018年6月)0.01美元,因此1TB約為50美元。

另一方面,如果您可以表達任務,則可以使用SQL完成轉換。 否則你有很多選擇,人們大多數時候都會使用Dataflow來改造東西。 有關高級示例,請參閱鏈接的教程。

再看看
Cloud Dataprep - 數據准備和數據清理
Google Data Studio:輕松構建自定義報告和信息中心

也是一個高級的例子:

從關系數據庫執行ETL到BigQuery

通過雲存儲加載數據是最快(也是最便宜)的方式。 直接加載可以通過app完成(使用流媒體插入,增加一些額外的成本)

對於做轉換 - 如果您計划/需要做什么可以在BigQuery中完成 - 您應該在BigQuery中完成:) - 這是做ETL的最佳和最快的方式。 但是你應該考慮運行查詢的成本(如果你沒有為谷歌支付插槽 - 它可能是每1TB掃描5美元)

復雜ETL的另一個好選擇是使用數據流 - 但它可以非常快速地變得昂貴 - 以換取更多的靈活性。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM