簡體   English   中英

谷歌雲數據流 Stream + 批處理

[英]Google Cloud Dataflow Stream + Batch

我正在構建一個基礎設施,我想分別接收冷熱數據。 對於熱數據,我將我的數據寫入 Cloud Spanner,對於冷數據,我想將我的數據寫入更持久的東西,比如 BigQuery。

我正在使用來自流服務的數據,但我想利用 BigQuery 的緩存機制 - 如果我不斷地將冷數據流式傳輸到 BigQuery,這是不可能的。 我的問題是我是否可以將 stream 管道分叉到批處理管道中,並將 stream 管道連接到 Spanner 並將批處理管道連接到 BigQuery。

我可以設想將冷數據寫入 Cloud Storage 並使用 cron 作業將數據讀入 BigQuery 的方式,但是是否有更好/原生的方法來實現 Stream+Batch 拆分?

雖然 Dataflow 確實具有批處理和流式執行模式,但您可以使用流式執行您可以在批處理模式下執行的任何操作(成本和可擴展性可能會有所不同)。 由於您的輸入是 stream,即無界數據源,因此您的管道將自動以流模式運行。

聽起來FILE_LOADS寫入 BigQuery 的方法可能是您想要的,您可以使用withTriggeringFrequency來管理寫入數據的頻率。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM