簡體 English 中英

了解 Google Cloud DataFlow Worker 中的線程

[英]Understanding Threading in Google Cloud DataFlow Workers

原文 2022-08-24 19:58:34 2 1 google-cloud-dataflow

我做了一個等待 60 秒的簡單程序。 我有 300 個輸入元素要處理。

線程數 - Batch - 1 和 Streaming - 300 每本文檔https://cloud.google.com/dataflow/docs/resources/faq#beam-java-sdk

在流模式下 - 有 1 個工作人員和 300 個線程，考慮到產生工作人員等的開銷，作業應該在 2 到 3 分鍾內完成。我的理解是 300 個輸入元素中的每一個將有 300 個線程，並且全部睡眠 60 秒和工作應該完成。 但是，這項工作需要更多時間才能完成。
同樣，在具有 1 個工作器（1 個線程）和 300 個輸入元素的批處理模式下，應該需要 300 分鍾才能完成。

有人可以澄清這在工人層面是如何發生的嗎？

1 個解決方案

啟動和拆除工作虛擬機有相當大的開銷，因此很難從像這樣的簡短實驗中概括出來。 此外，沒有 promise 將有給定數量的流或批處理工作人員，因為這是一個依賴於實現的參數，我可以隨時為任何跑步者更改（實際上甚至可以動態選擇）。

Google Cloud Dataflow 中的批處理與流式處理性能

[英]Batch vs Streaming Performance in Google Cloud Dataflow

Google Cloud Dataflow 和 Google Cloud Dataproc 有什么區別？

[英]What is the difference between Google Cloud Dataflow and Google Cloud Dataproc?

在 Beam/Google Cloud Dataflow 上調試慢速 PyTorch GPU 推理管道

[英]Debugging a slow PyTorch GPU Inference Pipeline on Beam/Google Cloud Dataflow

訪問 PCollectionView 的元素<list<foo> >: 谷歌雲數據流/Apache Beam </list<foo>

[英]Access elements of PCollectionView<List<Foo>> : Google Cloud Dataflow/Apache Beam

使用谷歌雲中的數據流從雲存儲中讀取數百萬個文件的問題

[英]Issue with reading millions of files from cloud storage using dataflow in Google cloud

Cloud Dataflow 中的失敗作業：啟用 Dataflow API

[英]Failed job in Cloud Dataflow: enable Dataflow API

使用 Google Cloud Dataflow flex 模板時，是否可以使用多命令 CLI 來運行作業？

[英]When using Google Cloud Dataflow flex templates, is it possible to use a multi-command CLI to run a job?

Google Cloud Dataflow：ModuleNotFoundError：運行集成測試時沒有名為“main”的模塊

[英]Google Cloud Dataflow: ModuleNotFoundError: No module named 'main' when running integration test

在 Google Cloud Dataflow 上運行的 Apache Beam 中禁用特定 class 的日志記錄

[英]Disable logging from a specific class in Apache Beam running on Google Cloud Dataflow

Web 爬蟲使用 Cloud Dataflow

[英]Web Crawler using Cloud Dataflow

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Google Cloud Dataflow 中的批處理與流式處理性能 Google Cloud Dataflow 和 Google Cloud Dataproc 有什么區別？在 Beam/Google Cloud Dataflow 上調試慢速 PyTorch GPU 推理管道訪問 PCollectionView 的元素<list<foo> >: 谷歌雲數據流/Apache Beam </list<foo> 使用谷歌雲中的數據流從雲存儲中讀取數百萬個文件的問題 Cloud Dataflow 中的失敗作業：啟用 Dataflow API 使用 Google Cloud Dataflow flex 模板時，是否可以使用多命令 CLI 來運行作業？ Google Cloud Dataflow：ModuleNotFoundError：運行集成測試時沒有名為“main”的模塊在 Google Cloud Dataflow 上運行的 Apache Beam 中禁用特定 class 的日志記錄 Web 爬蟲使用 Cloud Dataflow

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM