![](/img/trans.png)
[英]Loading Data to Google Cloud Storage & BigQuery with Cloud Function
[英]What are the pros and cons of loading data directly into Google BigQuery vs going through Cloud Storage first?
另外,在BigQuery中直接進行轉換/連接有什么問題嗎? 我想最小化我正在設置的數據倉庫所涉及的組件和步驟的數量(一系列零售商店的簡單交易和庫存數據。)
好吧,如果你通過GCS,這意味着你沒有流式傳輸數據,從文件到BQ的加載是免費的,文件大小可達5TB。 這有時是優勢,大文件能力和免費。 streamin也是實時的,通過GCS意味着它不是實時的。
如果要直接將數據流式傳輸到具有成本的BQ表中。 目前流媒體的價格為每200 MB(2018年6月)0.01美元,因此1TB約為50美元。
另一方面,如果您可以表達任務,則可以使用SQL完成轉換。 否則你有很多選擇,人們大多數時候都會使用Dataflow來改造東西。 有關高級示例,請參閱鏈接的教程。
再看看
Cloud Dataprep - 數據准備和數據清理和
Google Data Studio:輕松構建自定義報告和信息中心
也是一個高級的例子:
通過雲存儲加載數據是最快(也是最便宜)的方式。 直接加載可以通過app完成(使用流媒體插入,增加一些額外的成本)
對於做轉換 - 如果您計划/需要做什么可以在BigQuery中完成 - 您應該在BigQuery中完成:) - 這是做ETL的最佳和最快的方式。 但是你應該考慮運行查詢的成本(如果你沒有為谷歌支付插槽 - 它可能是每1TB掃描5美元)
復雜ETL的另一個好選擇是使用數據流 - 但它可以非常快速地變得昂貴 - 以換取更多的靈活性。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.