簡體   English   中英

如何將新添加的 avro 數據從 GCS 自動傳輸到 BigQuery

[英]How to automatically transfer newly added avro data from GCS to BigQuery

我想安排 Cloud Storage 與 BigQuery 之間的數據傳輸作業。 我有一個應用程序將數據連續轉儲到 GCS 存儲桶路徑(比方說gs://test-bucket/data1/*.avro ),我想在 GCS 中創建 object 后立即移動到 BigQuery。

我不想一次又一次地遷移文件夾中的所有可用文件。 我只想移動文件夾中上次運行后新添加的 object。

BigQuery 數據傳輸服務可用,它將 Avro 文件作為輸入而不是文件夾,它不只提供新添加的對象,而是提供所有對象。

我是新手所以可能缺少一些功能,我怎樣才能實現它?

請注意- 我想安排一個作業以特定頻率(每 10 或 15 分鍾)加載數據,我不希望從觸發器的角度來看任何解決方案,因為將生成的對象數量會很大。

您可以使用雲 Function 和存儲事件觸發器。 只需啟動 Cloud Function 即可在新文件到達時將數據加載到 BigQuery 中。 https://cloud.google.com/functions/docs/calling/storage編輯:如果您每天的負載超過 1500 次,您可以使用 BQ Storage API 來解決加載問題。

如果您不需要出色的性能,那么您可以在該文件夾上創建一個外部表並查詢它而不是加載每個文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM