簡體   English   中英

Google Cloud Dataflow如何使用Apache Beam從BigQuery讀取數據?

[英]How does google cloud Dataflow read from BigQuery using apache beam?

讀取的結果如何在工人之間分配? 是使用查詢結果創建一個表,然后工作人員從中讀取頁面,還是每個工作人員都運行查詢並讀取不同的頁面,或者...如何?

從BigQuery讀取數據時,Dataflow實際上只是調用BigQuery的導出API,並將表/查詢作為一堆碎片化的Avro文件轉儲到GCS。 一旦文件開始在GCS中着陸,Dataflow工作人員就會開始並行讀取它們。 工作的分布方式,即哪個工作人員讀取哪些分片/記錄是從您那里提取的,並由Dataflow服務本身處理/安排。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM