簡體   English   中英

火花emr工作,執行者迷路了

[英]spark emr job, executors being lost

嗨,我有一個火花提交作業/步驟,可以連續運行而不會失敗,但會丟失執行者。 數據每天都在增加,最初運行良好,但是現在s3中有400gb的數據似乎(至少我認為沒有足夠的資源

我為此使用18 r3.8xlarge。

                "EMR_MasterInstanceType": "r3.xlarge",
                "EMR_CoreInstanceType": "r3.8xlarge",
                "EMR_CoreInstanceCount": "18",

"Step2_Spark_Command": "command-runner.jar,spark-submit,--class,com.lex.rex.link.modules.multipart_files.files,--name,\\\\\\"Multipart Files Module\\\\\\",--master,yarn,--deploy-mode,client,--executor-memory,22G,--executor-cores,4,--conf,spark.sql.shuffle.partitions=320,/home/hadoop/linking.jar,jobId=#{myJobId},environment=test",

有什么想法或見識嗎? 當前配置是否足夠?

如果我使用的是r3.8xl和22G執行程序內存的18個ec2實例,我將在內存處理中使用396G的ram嗎? 我的假設是否正確?

400GB> 396GB為何會失敗?

想知道執行者有多少?

假定錯誤信息是ExecutorLostFailure(執行程序丟失)。

這主要是由資源不足引起的,這會導致執行程序的性能變差,例如GC變差。 您可以通過增加執行程序的數量來增加應用程序的資源。 如果不是,則可以進行一些調整,例如增加以下值: spark.shuffle.io.retryWait, spark.shuffle.io.maxRetries

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM