![](/img/trans.png)
[英]TypeError when connecting to Google Cloud BigQuery from Apache Beam Dataflow in Python?
[英]How does google cloud Dataflow read from BigQuery using apache beam?
讀取的結果如何在工人之間分配? 是使用查詢結果創建一個表,然后工作人員從中讀取頁面,還是每個工作人員都運行查詢並讀取不同的頁面,或者...如何?
從BigQuery讀取數據時,Dataflow實際上只是調用BigQuery的導出API,並將表/查詢作為一堆碎片化的Avro文件轉儲到GCS。 一旦文件開始在GCS中着陸,Dataflow工作人員就會開始並行讀取它們。 工作的分布方式,即哪個工作人員讀取哪些分片/記錄是從您那里提取的,並由Dataflow服務本身處理/安排。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.