簡體   English   中英

如何使用 Kubernetes 在 Spark 集群中調度作業

[英]How to schedule jobs in a spark cluster using Kubernetes

我對 Spark 和 Kubernetes 都很陌生,但我試圖了解這如何在生產環境中工作。 我打算使用 Kubernetes 來部署 Spark 集群。 然后我將使用 SparkStraeming 處理來自 Kafka 的數據並將結果輸出到數據庫。 此外,我計划設置一個每晚運行的預定 Spark-batch-job。

1. 我如何安排每晚的批處理運行? 我知道 Kubernetes 具有類似 cron 的功能(請參閱文檔)。 但根據我的理解,這是為了安排容器部署,我已經啟動並運行了我的容器(因為我使用 Spark-cluster 進行 SparkStreaming),我只想每天晚上向集群提交作業。

2. 我在哪里存儲 SparkStreaming 應用程序(可能有很多)以及如何啟動它? 我是否將 Spark 容器與 SparkStreaming 應用程序分開(即容器應該只包含一個干凈的 Spark 節點,並將 SparkStreaming 應用程序保存在持久存儲中,然后使用 kubectl 將作業推送到容器)? 或者我的 docker 文件應該從存儲庫克隆我的 SparkStreaming 應用程序並負責啟動它。

我曾嘗試查看文檔,但不確定如何設置。 任何回答我的問題的鏈接或參考都非常感謝。

您絕對應該使用CronJob資源來執行備份……另請參閱這些 repos 以幫助在 k8s 上引導火花

https://github.com/ramhiser/spark-kubernetes

https://github.com/navicore/spark-on-kubernetes

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM