火花emr工作，執行者迷路了

Question

嗨，我有一個火花提交作業/步驟，可以連續運行而不會失敗，但會丟失執行者。 數據每天都在增加，最初運行良好，但是現在s3中有400gb的數據似乎（至少我認為沒有足夠的資源

我為此使用18 r3.8xlarge。

                "EMR_MasterInstanceType": "r3.xlarge",
                "EMR_CoreInstanceType": "r3.8xlarge",
                "EMR_CoreInstanceCount": "18",

"Step2_Spark_Command": "command-runner.jar,spark-submit,--class,com.lex.rex.link.modules.multipart_files.files,--name,\\\\\\"Multipart Files Module\\\\\\",--master,yarn,--deploy-mode,client,--executor-memory,22G,--executor-cores,4,--conf,spark.sql.shuffle.partitions=320,/home/hadoop/linking.jar,jobId=#{myJobId},environment=test",

有什么想法或見識嗎？ 當前配置是否足夠？

如果我使用的是r3.8xl和22G執行程序內存的18個ec2實例，我將在內存處理中使用396G的ram嗎？ 我的假設是否正確？

400GB> 396GB為何會失敗？

Answer 1

想知道執行者有多少？

假定錯誤信息是ExecutorLostFailure（執行程序丟失）。

這主要是由資源不足引起的，這會導致執行程序的性能變差，例如GC變差。 您可以通過增加執行程序的數量來增加應用程序的資源。 如果不是，則可以進行一些調整，例如增加以下值： spark.shuffle.io.retryWait, spark.shuffle.io.maxRetries

火花emr工作，執行者迷路了

問題描述

1 個解決方案

解決方案1
0 2018-04-10 06:47:14

火花emr工作，執行者迷路了

問題描述

1 個解決方案

解決方案1 0 2018-04-10 06:47:14

解決方案1
0 2018-04-10 06:47:14