簡體 English 中英

Apache Beam Dataflow 作業在本地做什么？

[英]What does an Apache Beam Dataflow job do locally?

原文 2018-04-27 17:31:49 6 2 python/ google-cloud-dataflow/ apache-beam

我在使用 Apache Beam Python SDK 定義的數據流時遇到一些問題。 如果我逐步執行我的代碼，它會到達 pipeline.run() 步驟，我認為這意味着執行圖已成功定義。 但是，該作業從未在 Dataflow 監控工具上注冊，這讓我認為它永遠不會到達管道驗證步驟。

我想更多地了解這兩個步驟之間發生了什么，以幫助調試問題。 我看到 output 表明我的requirements.txt和apache-beam中的包正在安裝 pip 並且似乎有些東西在發送到谷歌的服務器之前被腌制了。 這是為什么？ 如果我已經下載了 apache-beam，為什么還要重新下載呢？ 腌制的到底是什么？

我不是在這里尋找解決我的問題的方法，只是想更好地理解這個過程。

2 個解決方案

在圖構造期間，數據流將檢查錯誤和管道中的任何非法操作。 一旦檢查成功，執行圖將轉換為JSON並傳輸到Dataflow服務。 在Dataflow服務中，JSON圖經過驗證，並且成為工作。 但是，如果管道在本地執行，則該圖不會轉換為JSON或傳輸到Dataflow服務。 因此，該圖不會在監視工具中顯示為作業，它將在本地計算機上運行[1]。 您可以按照文檔配置本地計算機[2]。

[1] https://cloud.google.com/dataflow/service/dataflow-service-desc#pipeline-lifecycle-from-pipeline-code-to-dataflow-job

[2] https://cloud.google.com/dataflow/pipelines/specifying-exec-params#configuring-pipelineoptions-for-local-execution

使用pip download requirements.txt 中的包，並將它們暫存到暫存位置。 這個暫存位置將被 Dataflow 用作緩存，並用於在 Dataflow worker 上調用pip install -r requirements.txt以減少對 pypi 的調用時查找包。

Apache Beam Pipeline 從 REST API 在本地運行，但不在 Dataflow 上運行

[英]Apache Beam Pipeline to read from REST API runs locally but not on Dataflow

在Apache Beam / Dataflow作業中是否可以有非並行步驟？

[英]Is it possible to have a non parallel step in an Apache Beam / Dataflow job?

Apache Beam 是否需要互聯網才能運行 GCP Dataflow 作業

[英]Does Apache Beam need internet to run GCP Dataflow jobs

帶有 Apache Beam 的 Google Cloud Dataflow 不顯示日志

[英]Google Cloud Dataflow with Apache Beam does not display log

如何為 apache 光束數據流的輸出 csv 添加標頭？

[英]How do I add headers for the output csv for apache beam dataflow?

在從 CircleCI 啟動的 Dataflow/Apache-beam 作業中找不到庫

[英]Libraries cannot be found on Dataflow/Apache-beam job launched from CircleCI

使用 setup.py 在數據流中運行 apache 光束作業時出現 ModuleNotFoundError

[英]ModuleNotFoundError while running apache beam job in dataflow using setup.py

apache 光束中的重定向是什么意思（python）

[英]What does the redirection mean in apache beam (python)

梁：CombinePerKey（max）掛在數據流作業中

[英]Beam: CombinePerKey(max) hang in dataflow job

如何在apache beam dataflow中將csv轉換為字典

[英]How to convert csv into a dictionary in apache beam dataflow

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Apache Beam Pipeline 從 REST API 在本地運行，但不在 Dataflow 上運行在Apache Beam / Dataflow作業中是否可以有非並行步驟？ Apache Beam 是否需要互聯網才能運行 GCP Dataflow 作業帶有 Apache Beam 的 Google Cloud Dataflow 不顯示日志如何為 apache 光束數據流的輸出 csv 添加標頭？在從 CircleCI 啟動的 Dataflow/Apache-beam 作業中找不到庫使用 setup.py 在數據流中運行 apache 光束作業時出現 ModuleNotFoundError apache 光束中的重定向是什么意思（python）梁：CombinePerKey（max）掛在數據流作業中如何在apache beam dataflow中將csv轉換為字典

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM