Spark 在 Yarn 集群 exitCode=13 上運行：

Question

我是 spark/yarn 新手，當我在 yarn 集群上提交 spark 作業時遇到了 exitCode=13。 當 spark 作業在本地模式下運行時，一切都很好。

我使用的命令是：

/usr/hdp/current/spark-client/bin/spark-submit --class com.test.sparkTest --master yarn --deploy-mode cluster --num-executors 40 --executor-cores 4 --driver-memory 17g --executor-memory 22g --files /usr/hdp/current/spark-client/conf/hive-site.xml /home/user/sparkTest.jar*

火花錯誤日志：

16/04/12 17:59:30 INFO Client:
         client token: N/A
         diagnostics: Application application_1459460037715_23007 failed 2 times due to AM Container for appattempt_1459460037715_23007_000002 exited with  exitCode: 13
For more detailed output, check application tracking page:http://b-r06f2-prod.phx2.cpe.net:8088/cluster/app/application_1459460037715_23007Then, click on links to logs of each attempt.
Diagnostics: Exception from container-launch.
Container id: container_e40_1459460037715_23007_02_000001
Exit code: 13
Stack trace: ExitCodeException exitCode=13:
        at org.apache.hadoop.util.Shell.runCommand(Shell.java:576)
        at org.apache.hadoop.util.Shell.run(Shell.java:487)
        at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:753)
        at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:211)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)


**Yarn logs**

    16/04/12 23:55:35 INFO mapreduce.TableInputFormatBase: Input split length: 977 M bytes.
16/04/12 23:55:41 INFO yarn.ApplicationMaster: Waiting for spark context initialization ...
16/04/12 23:55:51 INFO yarn.ApplicationMaster: Waiting for spark context initialization ...
16/04/12 23:56:01 INFO yarn.ApplicationMaster: Waiting for spark context initialization ...
16/04/12 23:56:11 INFO yarn.ApplicationMaster: Waiting for spark context initialization ...
16/04/12 23:56:11 INFO client.ConnectionManager$HConnectionImplementation: Closing zookeeper sessionid=0x152f0b4fc0e7488
16/04/12 23:56:11 INFO zookeeper.ZooKeeper: Session: 0x152f0b4fc0e7488 closed
16/04/12 23:56:11 INFO zookeeper.ClientCnxn: EventThread shut down
16/04/12 23:56:11 INFO executor.Executor: Finished task 0.0 in stage 1.0 (TID 2). 2003 bytes result sent to driver
16/04/12 23:56:11 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 1.0 (TID 2) in 82134 ms on localhost (2/3)
16/04/12 23:56:17 INFO client.ConnectionManager$HConnectionImplementation: Closing zookeeper sessionid=0x4508c270df0980316/04/12 23:56:17 INFO zookeeper.ZooKeeper: Session: 0x4508c270df09803 closed *
...
    16/04/12 23:56:21 ERROR yarn.ApplicationMaster: SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application.
16/04/12 23:56:21 INFO yarn.ApplicationMaster: Final app status: FAILED, exitCode: 13, (reason: Timed out waiting for SparkContext.)
16/04/12 23:56:21 INFO spark.SparkContext: Invoking stop() from shutdown hook *

Answer 1

似乎您已將代碼中的 master 設置為本地

SparkConf.setMaster("local[*]")

你必須讓 master 在代碼中取消設置，然后在你發出spark-submit時設置它

spark-submit --master yarn-client ...

Answer 2

如果它幫助某人

此錯誤的另一種可能性是當您錯誤地放置--class參數時

Answer 3

我遇到了完全相同的問題，但上述答案不起作用。 或者，當我使用spark-submit --deploy-mode client運行它時，一切正常。

Answer 4

我在集群模式下運行 SparkSQL 作業時遇到了同樣的錯誤。 其他解決方案都不適合我，但查看 Hadoop 中的作業歷史服務器日志，我發現了此堆棧跟蹤。

20/02/05 23:01:24 INFO hive.metastore: Connected to metastore.
20/02/05 23:03:03 ERROR yarn.ApplicationMaster: Uncaught exception: 
java.util.concurrent.TimeoutException: Futures timed out after [100000 milliseconds]
    at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:223)
    at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:227)
    at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:220)
    at org.apache.spark.deploy.yarn.ApplicationMaster.runDriver(ApplicationMaster.scala:468)
    at org.apache.spark.deploy.yarn.ApplicationMaster.org$apache$spark$deploy$yarn$ApplicationMaster$$runImpl(ApplicationMaster.scala:305)
    at org.apache.spark.deploy.yarn.ApplicationMaster$$anonfun$run$1.apply$mcV$sp(ApplicationMaster.scala:245)
    at org.apache.spark.deploy.yarn.ApplicationMaster$$anonfun$run$1.apply(ApplicationMaster.scala:245)
    at org.apache.spark.deploy.yarn.ApplicationMaster$$anonfun$run$1.apply(ApplicationMaster.scala:245)
...

查看Spark 源代碼，您會發現基本上 AM 超時，等待執行用戶類的線程設置spark.driver.port屬性。
因此，這可能是一個暫時性問題，或者您應該調查您的代碼以了解超時的原因。

Answer 5

這個退出代碼 13 是一個棘手的問題......

對我來說，這是SyntaxError: invalid syntax是在一個腳本導入下游到spark-submit調用。

在 aws 上調試時，如果 spark-submit 未正確初始化，您將不會在 Spark History Server 上找到錯誤，您必須在 Spark 日志中找到它：EMR UI Console -> Summary -> Log URI ->容器 -> application_xxx_xxx -> container_yyy_yy_yy -> stdout.gz。

Spark 在 Yarn 集群 exitCode=13 上運行：

問題描述

5 個解決方案

解決方案1
35 已采納 2016-04-13 17:46:30

解決方案2
6 2019-05-10 20:56:27

解決方案3
3 2019-08-16 01:18:44

解決方案4
1 2020-02-06 00:14:55

解決方案5
0 2022-08-30 21:14:08

Spark 在 Yarn 集群 exitCode=13 上運行：

問題描述

5 個解決方案

解決方案1 35 已采納 2016-04-13 17:46:30

解決方案2 6 2019-05-10 20:56:27

解決方案3 3 2019-08-16 01:18:44

解決方案4 1 2020-02-06 00:14:55

解決方案5 0 2022-08-30 21:14:08

解決方案1
35 已采納 2016-04-13 17:46:30

解決方案2
6 2019-05-10 20:56:27

解決方案3
3 2019-08-16 01:18:44

解決方案4
1 2020-02-06 00:14:55

解決方案5
0 2022-08-30 21:14:08