繁体   English   中英

GCP Dataproc 集群上的工作流调度

[英]Workflow scheduling on GCP Dataproc cluster

我有一些复杂的 Oozie 工作流可以从本地 Hadoop 迁移到 GCP Dataproc。 工作流包括 shell 脚本、Python 脚本、Spark-Scala 作业、Sqoop 作业等。

我遇到了一些包含我的工作流程调度需求的潜在解决方案:

  1. 云作曲家
  2. 使用 Cloud Scheduling 的 Dataproc 工作流模板
  3. 在 Dataproc 自动扩缩集群上安装 Oozie

请让我知道哪个选项在性能、成本和迁移复杂性方面最有效。

所有 3 个都是合理的选择(尽管 #2 Scheduler+Dataproc 是最笨重的)。 需要考虑的几个问题:您的工作流多久运行一次,您对未使用的 VM 的容忍度如何,您的 Oozie 工作流有多复杂,以及您是否愿意在迁移上投入时间?

Dataproc 的工作流支持分支/加入,但缺乏其他 Oozie 功能,例如如何处理作业失败、决策节点等。如果您使用其中任何一个,我什至不会考虑直接迁移到工作流模板并选择 #3或下面的混合迁移。

一个很好的起点是混合迁移(假设您的集群很少使用)。 保留您的 Oozie 工作流并让 Composer + 工作流模板使用 Oozie 创建一个集群,使用 init 操作来暂存您的 Oozie XML 文件 + 作业 jars/artifacts,从工作流中添加一个pig sh作业以通过 CLI 触发 Oozie。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM