繁体   English   中英

什么是为Google Cloud Dataflow部署和管理Python SDK Apache Beam管道执行的便捷方法

[英]What is a convenient way to deploy and manage execution of a Python SDK Apache Beam pipeline for Google cloud Dataflow

使用Python SDK和DataflowRunner在Google的云Dataflow中设计和测试了Apache Beam管道之后, 其放入Google云并管理其执行的便捷方法是什么?

部署和管理适用于Google Cloud Dataflow的Python SDK Apache Beam管道的便捷方法是什么?

应该以某种方式包装吗? 上传到Google存储空间了吗? 创建数据流模板? 在开发人员从其开发环境中执行它之外,如何安排其执行?

更新

最好没有第三方工具,也不需要特别是Google云和Dataflow之外的其他管理工具/基础架构。

我想说最方便的方法是使用Airflow 这使您可以创作,安排和监视工作流程。 数据流操作员可以启动您设计的数据管道。 气流可以在小型VM上启动,也可以使用Google Cloud Platform上的工具Cloud Composer来启动。

还有更多选项可以使您的工作流程自动化,例如JenkinsAzkabanRundeck ,甚至运行简单的cronjob(我不鼓励您使用)。 您可能也想看看这些选项,但是Airflow可能适合您的需求。

直观地,您希望Dataflow文档的“使用指南 ”下的“ 部署管道 ”部分将对此进行介绍。 但是,您只能在“ 模板概述 ”部分中找到对这8个部分的解释。

根据该部分:

Cloud Dataflow模板引入了新的开发和执行工作流程,与传统的作业执行工作流程不同。 模板工作流程将开发步骤与登台和执行步骤分开。

通常,您不会从Google Cloud部署和执行Dataflow管道。 但是,如果您需要与云的非技术成员共享管道的执行,或者只是想在不依赖开发环境或第三方工具的情况下触发管道,则需要数据流模板。

开发和测试管道后,您可以从中创建数据流作业模板。

请注意:

要使用适用于Python的Cloud Dataflow SDK 2.x创建模板,您必须具有2.0.0或更高版本。

您将需要使用带有管道选项的DataflowRunner执行管道,该管道选项将在Google Cloud存储上生成模板,而不是运行模板。

有关更多详细信息,请参阅创建模板文档部分,并且要从模板运行它,请参阅执行模板部分。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM