繁体   English   中英

如何使用 Kubernetes 在 Spark 集群中调度作业

[英]How to schedule jobs in a spark cluster using Kubernetes

我对 Spark 和 Kubernetes 都很陌生,但我试图了解这如何在生产环境中工作。 我打算使用 Kubernetes 来部署 Spark 集群。 然后我将使用 SparkStraeming 处理来自 Kafka 的数据并将结果输出到数据库。 此外,我计划设置一个每晚运行的预定 Spark-batch-job。

1. 我如何安排每晚的批处理运行? 我知道 Kubernetes 具有类似 cron 的功能(请参阅文档)。 但根据我的理解,这是为了安排容器部署,我已经启动并运行了我的容器(因为我使用 Spark-cluster 进行 SparkStreaming),我只想每天晚上向集群提交作业。

2. 我在哪里存储 SparkStreaming 应用程序(可能有很多)以及如何启动它? 我是否将 Spark 容器与 SparkStreaming 应用程序分开(即容器应该只包含一个干净的 Spark 节点,并将 SparkStreaming 应用程序保存在持久存储中,然后使用 kubectl 将作业推送到容器)? 或者我的 docker 文件应该从存储库克隆我的 SparkStreaming 应用程序并负责启动它。

我曾尝试查看文档,但不确定如何设置。 任何回答我的问题的链接或参考都非常感谢。

您绝对应该使用CronJob资源来执行备份……另请参阅这些 repos 以帮助在 k8s 上引导火花

https://github.com/ramhiser/spark-kubernetes

https://github.com/navicore/spark-on-kubernetes

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM