簡體   English   中英

如何在4節點CDH集群中提交Spark作業

[英]How to submit a spark job in a 4 node CDH cluster

我的集群具有以下配置。

Distribution : CDH5,
Number nodes : 4,
RAM : 126GB,
Number of cores : 24 per node,
Harddisk : 5TB

我的輸入文件大小為10GB。 當我使用以下命令提交時,會花費很多時間(大約20分鍾)。

spark-submit --jars xxxx  --files xxx,yyy  --master yarn /home/me/python/ParseMain.py

在我的python代碼中,我設置了以下內容:

sparkConf = SparkConf().setAppName("myapp")    
sc = SparkContext(conf = sparkConf)    
hContext = HiveContext(sc)

如何更改spark提交參數,以獲得更好的性能?

您可以嘗試的一些火花提交選項

--driver-cores 4
--num-executors 4
--executor-cores 20
--executor-memory 5G

CDH必須配置為具有足夠的vCore和vMemory。 否則,提交的作業將保持ACCEPTED ,不會RUN

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM