[英]How to submit a spark job in a 4 node CDH cluster
我的集群具有以下配置。
Distribution : CDH5,
Number nodes : 4,
RAM : 126GB,
Number of cores : 24 per node,
Harddisk : 5TB
我的輸入文件大小為10GB。 當我使用以下命令提交時,會花費很多時間(大約20分鍾)。
spark-submit --jars xxxx --files xxx,yyy --master yarn /home/me/python/ParseMain.py
在我的python代碼中,我設置了以下內容:
sparkConf = SparkConf().setAppName("myapp")
sc = SparkContext(conf = sparkConf)
hContext = HiveContext(sc)
如何更改spark提交參數,以獲得更好的性能?
您可以嘗試的一些火花提交選項
--driver-cores 4
--num-executors 4
--executor-cores 20
--executor-memory 5G
CDH必須配置為具有足夠的vCore和vMemory。 否則,提交的作業將保持ACCEPTED
,不會RUN
。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.