火花emr工作，执行者迷路了

Question

嗨，我有一个火花提交作业/步骤，可以连续运行而不会失败，但会丢失执行者。 数据每天都在增加，最初运行良好，但是现在s3中有400gb的数据似乎（至少我认为没有足够的资源

我为此使用18 r3.8xlarge。

                "EMR_MasterInstanceType": "r3.xlarge",
                "EMR_CoreInstanceType": "r3.8xlarge",
                "EMR_CoreInstanceCount": "18",

"Step2_Spark_Command": "command-runner.jar,spark-submit,--class,com.lex.rex.link.modules.multipart_files.files,--name,\\\\\\"Multipart Files Module\\\\\\",--master,yarn,--deploy-mode,client,--executor-memory,22G,--executor-cores,4,--conf,spark.sql.shuffle.partitions=320,/home/hadoop/linking.jar,jobId=#{myJobId},environment=test",

有什么想法或见识吗？ 当前配置是否足够？

如果我使用的是r3.8xl和22G执行程序内存的18个ec2实例，我将在内存处理中使用396G的ram吗？ 我的假设是否正确？

400GB> 396GB为何会失败？

Answer 1

想知道执行者有多少？

假定错误信息是ExecutorLostFailure（执行程序丢失）。

这主要是由资源不足引起的，这会导致执行程序的性能变差，例如GC变差。 您可以通过增加执行程序的数量来增加应用程序的资源。 如果不是，则可以进行一些调整，例如增加以下值： spark.shuffle.io.retryWait, spark.shuffle.io.maxRetries

火花emr工作，执行者迷路了

问题描述

1 个解决方案

解决方案1
0 2018-04-10 06:47:14

火花emr工作，执行者迷路了

问题描述

1 个解决方案

解决方案1 0 2018-04-10 06:47:14

解决方案1
0 2018-04-10 06:47:14