繁体   English   中英

如何在Cloudera中计划/触发Spark作业?

[英]How to schedule/trigger spark jobs in Cloudera?

当前,我们的项目在MR上,我们使用Oozie来安排MR Jobs。 现在我们转到Spark,并想了解在CDH集群上计划/触发Spark Jobs的推荐方法。 请注意,CDH Oozie不支持Spark2作业。 因此,请为此提供替代方案。

上次查看时,Hue在Worlflow编辑器中有一个Spark选项。 如果Cloudera不支持,我不确定为什么会存在...

尽管CDH Oozie确实支持普通的shell脚本,但是您需要确保所有NodeManager在本地服务器上都可以使用spark-submit命令。

如果这不起作用,那么它还支持运行JAR的Java动作,因此您可以全部从主要方法开始编写Spark脚本,该方法可以从那里加载任何配置

从shell提交spark作业后,例如: spark-submit <script_path> <arguments_list>它将被提交到CDH集群。 随即可以在色相中看到火花作业及其进度,这就是我们触发火花作业的方式。

此外,要编排一系列作业,可以在其周围使用Shell脚本包装。 或者,您可以使用cron作业来触发计时。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM