[英]Exporting BigQuery Table Data to Google Cloud Storage having where clause using python
[英]Exporting BigQuery data for analysis using python
我是Google BigQuery的新手,所以我試圖了解如何最好地完成用例。
我將BigQuery的每日客戶訪問數據存儲在BigQuery中,希望使用我用python編寫的一些算法進行分析。 由於有多個腳本使用每日數據的子集,所以我想知道什么是獲取和臨時存儲數據的最佳方法。 此外,腳本以順序方式運行。 每個腳本修改數據的某些列,隨后的腳本使用此修改后的數據。 運行完所有腳本后,我想將修改后的數據存儲回BigQuery。
我想到的一些方法是:
將bigquery表作為db文件導出到GAE(Google App Engine)實例中,並使用sqlite3 python包從db文件中查詢每個腳本的相關數據。 一旦所有腳本運行完畢,將修改后的表存儲回BigQuery,然后從GAE實例中刪除數據庫文件。
每次我想使用google-cloud python客戶端庫或pandas gbq包運行腳本時,都可以從BigQuery查詢數據。 運行每個腳本后,修改BigQuery表。
有人能知道其中哪一個是實現此目的的更好方法(就效率/成本而言)或提出替代方案?
謝謝!
問題的答案主要取決於您的用例和將要處理的數據大小,因此沒有一個絕對正確的答案。
但是,在您描述的場景中,您可能需要考慮一些有關BigQuery的用法以及它的某些功能對您來說很有趣的幾點。
讓我快速瀏覽一下您應該關注的主要主題:
因此,總的來說,我要說的是,您無需保留部分結果來自BigQuery存儲的任何其他數據庫。 在資源和成本效率方面,BigQuery提供了足夠的功能供您在本地處理數據,而不必處理巨額費用或數據檢索的延遲。 但是,這再次取決於您的用例和要存儲的數據量以及需要同時處理。 但總的來說,我只會自己使用BigQuery。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.