繁体 English 中英

Apache Beam Dataflow 作业在本地做什么？

[英]What does an Apache Beam Dataflow job do locally?

原文 2018-04-27 17:31:49 4 2 python/ google-cloud-dataflow/ apache-beam

我在使用 Apache Beam Python SDK 定义的数据流时遇到一些问题。 如果我逐步执行我的代码，它会到达 pipeline.run() 步骤，我认为这意味着执行图已成功定义。 但是，该作业从未在 Dataflow 监控工具上注册，这让我认为它永远不会到达管道验证步骤。

我想更多地了解这两个步骤之间发生了什么，以帮助调试问题。 我看到 output 表明我的requirements.txt和apache-beam中的包正在安装 pip 并且似乎有些东西在发送到谷歌的服务器之前被腌制了。 这是为什么？ 如果我已经下载了 apache-beam，为什么还要重新下载呢？ 腌制的到底是什么？

我不是在这里寻找解决我的问题的方法，只是想更好地理解这个过程。

2 个解决方案

在图构造期间，数据流将检查错误和管道中的任何非法操作。 一旦检查成功，执行图将转换为JSON并传输到Dataflow服务。 在Dataflow服务中，JSON图经过验证，并且成为工作。 但是，如果管道在本地执行，则该图不会转换为JSON或传输到Dataflow服务。 因此，该图不会在监视工具中显示为作业，它将在本地计算机上运行[1]。 您可以按照文档配置本地计算机[2]。

[1] https://cloud.google.com/dataflow/service/dataflow-service-desc#pipeline-lifecycle-from-pipeline-code-to-dataflow-job

[2] https://cloud.google.com/dataflow/pipelines/specifying-exec-params#configuring-pipelineoptions-for-local-execution

使用pip download requirements.txt 中的包，并将它们暂存到暂存位置。 这个暂存位置将被 Dataflow 用作缓存，并用于在 Dataflow worker 上调用pip install -r requirements.txt以减少对 pypi 的调用时查找包。

Apache Beam Pipeline 从 REST API 在本地运行，但不在 Dataflow 上运行

[英]Apache Beam Pipeline to read from REST API runs locally but not on Dataflow

在Apache Beam / Dataflow作业中是否可以有非并行步骤？

[英]Is it possible to have a non parallel step in an Apache Beam / Dataflow job?

Apache Beam 是否需要互联网才能运行 GCP Dataflow 作业

[英]Does Apache Beam need internet to run GCP Dataflow jobs

带有 Apache Beam 的 Google Cloud Dataflow 不显示日志

[英]Google Cloud Dataflow with Apache Beam does not display log

如何为 apache 光束数据流的输出 csv 添加标头？

[英]How do I add headers for the output csv for apache beam dataflow?

在从 CircleCI 启动的 Dataflow/Apache-beam 作业中找不到库

[英]Libraries cannot be found on Dataflow/Apache-beam job launched from CircleCI

使用 setup.py 在数据流中运行 apache 光束作业时出现 ModuleNotFoundError

[英]ModuleNotFoundError while running apache beam job in dataflow using setup.py

apache 光束中的重定向是什么意思（python）

[英]What does the redirection mean in apache beam (python)

梁：CombinePerKey（max）挂在数据流作业中

[英]Beam: CombinePerKey(max) hang in dataflow job

如何在apache beam dataflow中将csv转换为字典

[英]How to convert csv into a dictionary in apache beam dataflow

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Beam Pipeline 从 REST API 在本地运行，但不在 Dataflow 上运行在Apache Beam / Dataflow作业中是否可以有非并行步骤？ Apache Beam 是否需要互联网才能运行 GCP Dataflow 作业带有 Apache Beam 的 Google Cloud Dataflow 不显示日志如何为 apache 光束数据流的输出 csv 添加标头？在从 CircleCI 启动的 Dataflow/Apache-beam 作业中找不到库使用 setup.py 在数据流中运行 apache 光束作业时出现 ModuleNotFoundError apache 光束中的重定向是什么意思（python）梁：CombinePerKey（max）挂在数据流作业中如何在apache beam dataflow中将csv转换为字典

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM