繁体   English   中英

火花emr工作,执行者迷路了

[英]spark emr job, executors being lost

嗨,我有一个火花提交作业/步骤,可以连续运行而不会失败,但会丢失执行者。 数据每天都在增加,最初运行良好,但是现在s3中有400gb的数据似乎(至少我认为没有足够的资源

我为此使用18 r3.8xlarge。

                "EMR_MasterInstanceType": "r3.xlarge",
                "EMR_CoreInstanceType": "r3.8xlarge",
                "EMR_CoreInstanceCount": "18",

"Step2_Spark_Command": "command-runner.jar,spark-submit,--class,com.lex.rex.link.modules.multipart_files.files,--name,\\\\\\"Multipart Files Module\\\\\\",--master,yarn,--deploy-mode,client,--executor-memory,22G,--executor-cores,4,--conf,spark.sql.shuffle.partitions=320,/home/hadoop/linking.jar,jobId=#{myJobId},environment=test",

有什么想法或见识吗? 当前配置是否足够?

如果我使用的是r3.8xl和22G执行程序内存的18个ec2实例,我将在内存处理中使用396G的ram吗? 我的假设是否正确?

400GB> 396GB为何会失败?

想知道执行者有多少?

假定错误信息是ExecutorLostFailure(执行程序丢失)。

这主要是由资源不足引起的,这会导致执行程序的性能变差,例如GC变差。 您可以通过增加执行程序的数量来增加应用程序的资源。 如果不是,则可以进行一些调整,例如增加以下值: spark.shuffle.io.retryWait, spark.shuffle.io.maxRetries

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM