Spark上的Hive> Yarn模式> spark配置>給spark.master提供什么值

Question

我正在嘗試使用我自己的自定義serde進行HiveQL（它與純Hive一起正常工作）。 我按照以下說明進行操作： https ： //cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

但我對這部分非常困惑：啟動Spark集群（支持獨立和YARN上的Spark）。 根據我的理解，如果Spark以獨立模式運行，我們只需要啟動Spark集群。 但我打算在Yarn上運行Spark，是否需要啟動Spark集群？ 我做的是：我剛開始使用Hadoop Yarn，因為我真的不知道要設置什么屬性spark.master，我根本就沒有設置它。 可能是因為這個設置，我在運行Hive查詢時收到錯誤消息，該查詢使用我自己的Serde：

2015-10-05 20:42:07,184 INFO  [main]: status.SparkJobMonitor (RemoteSparkJobMonitor.java:startMonitor(67)) - Job hasn't been submitted after 61s. Abor

它。

2015-10-05 20:42:07,184 ERROR [main]: status.SparkJobMonitor (SessionState.java:printError(960)) - Status: SENT
2015-10-05 20:42:07,184 INFO  [main]: log.PerfLogger (PerfLogger.java:PerfLogEnd(148)) - </PERFLOG method=SparkRunJob start=1444066866174 end=1444066927184 duration=61010 from=org.apache.hadoop.hive.ql.exec.spark.status.SparkJobMonitor>
2015-10-05 20:42:07,300 ERROR [main]: ql.Driver (SessionState.java:printError(960)) - FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.spark.SparkTask
2015-10-05 20:42:07,300 INFO  [main]: log.PerfLogger (PerfLogger.java:PerfLogEnd(148)) - </PERFLOG method=Driver.execute start=1444066848958 end=1444066927300 duration=78342 from=org.apache.hadoop.hive.ql.Driver>

...

最后還有以下例外：

2015-10-05 20:42:16,658 INFO  [stderr-redir-1]: client.SparkClientImpl (SparkClientImpl.java:run(569)) - 15/10/05 20:42:16 INFO yarn.Client: Application report for application_1444066615793_0001 (state: ACCEPTED)
2015-10-05 20:42:17,337 WARN  [main]: client.SparkClientImpl (SparkClientImpl.java:stop(154)) - Timed out shutting down remote driver, interrupting...
2015-10-05 20:42:17,337 WARN  [Driver]: client.SparkClientImpl (SparkClientImpl.java:run(430)) - Waiting thread interrupted, killing child process.
2015-10-05 20:42:17,345 WARN  [stderr-redir-1]: client.SparkClientImpl (SparkClientImpl.java:run(572)) - Error in redirector thread.
java.io.IOException: Stream closed
    at     java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
    at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
    at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
    at sun.nio.cs.StreamDecoder.readBytes(StreamDecoder.java:283)
    at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:325)
    at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:177)
    at java.io.InputStreamReader.read(InputStreamReader.java:184)
    at java.io.BufferedReader.fill(BufferedReader.java:154)
    at java.io.BufferedReader.readLine(BufferedReader.java:317)
    at java.io.BufferedReader.readLine(BufferedReader.java:382)
    at org.apache.hive.spark.client.SparkClientImpl$Redirector.run(SparkClientImpl.java:568)
    at java.lang.Thread.run(Thread.java:745)

2015-10-05 20：42：17,371 INFO [Thread-15]：session.SparkSessionManagerImpl（SparkSessionManagerImpl.java:shutdown(146）） - 關閉會話管理器。

忠實地希望任何人都能提出一些建議，非常感謝

Answer 1

請嘗試set spark.master=yarn-client;

Answer 2

從官方文檔Spark on YARN開始，你的主人將基本上：

yarn-cluster ：如果你提交工作來激發OR
yarn-client ：如果要在本地實例化SparkContext

不要忘記在HADOOP_CONF_DIR和YARN_CONF_DIR提供configurarion文件（core-site.xml，hdfs-site.xml，yarn-site.xml，mapred-site.xml，hive-site.xml等）。 您可以在<spark_home>/conf/spark-env.sh設置這些變量

Spark上的Hive> Yarn模式> spark配置>給spark.master提供什么值

問題描述

2 個解決方案

解決方案1
2 2015-11-12 15:28:56

解決方案2
2 2016-04-08 17:21:23

Spark上的Hive> Yarn模式> spark配置>給spark.master提供什么值

問題描述

2 個解決方案

解決方案1 2 2015-11-12 15:28:56

解決方案2 2 2016-04-08 17:21:23

解決方案1
2 2015-11-12 15:28:56

解決方案2
2 2016-04-08 17:21:23