在spark上配置配置單元的問題

Question

我已經下載了spark-2.0.0-bin-hadoop2.7。 任何人都可以建議如何配置hive並在scala控制台中使用？ 現在我可以使用Scala（spark-shell控制台）在文件上運行RDD。

Answer 1

將您的hive-site.xml放在spark conf目錄中

Answer 2

Hive可以支持多個執行引擎。 像TEZ，Spark一樣。 您可以在hive-site.xml中設置該屬性

</property> 
<name>hive.execution.engine</name>
<value>spark</value>
<description>
 I am choosing Spark as the execution engine
</description>
</property>

將jar-spark-assembly jar復制到HIVE_HOME / lib

設置spark_home

設置以下屬性

set spark.master=<Spark Master URL>
set spark.eventLog.enabled=true;
set spark.eventLog.dir=<Spark event log folder (must exist)>
set spark.executor.memory=512m;             
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

我認為上面的步驟就足夠了

Answer 3

關注官方Hive on Spark文檔：

https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

您可以使用以下命令在Hive上設置Spark引擎：

set hive.execution.engine=spark;

或者在hive-site.xml上添加它（參考kanishka帖子）

然后在Hive 2.2.0之前，將spark-assembly jar復制到HIVE_HOME / lib。

從Hive 2.2.0開始，Spark上的Hive運行Spark 2.0.0及更高版本，它沒有裝配jar。

要以YARN模式（yarn-client或yarn-cluster）運行，請將以下jar復制到HIVE_HOME / lib。

斯卡拉庫

火花核心

火花網絡共同

設置spark_home：

export $SPARK_HOME=/path-to-spark

啟動Spark Master和Workers：

spark-class org.apache.spark.deploy.master.Master

spark-class org.apache.spark.deploy.worker.Worker spark://MASTER_IP:PORT

配置Spark：

set spark.master=<Spark Master URL>;
set spark.executor.memory=512m; 
set spark.yarn.executor.memoryOverhead=10~20% of spark.executor.memory(value);     
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

在spark上配置配置單元的問題

問題描述

3 個解決方案

解決方案1
0 2016-09-27 06:08:54

解決方案2
0 2016-09-27 06:41:44

解決方案3
0 已采納 2017-05-11 20:05:29

在spark上配置配置單元的問題

問題描述

3 個解決方案

解決方案1 0 2016-09-27 06:08:54

解決方案2 0 2016-09-27 06:41:44

解決方案3 0 已采納 2017-05-11 20:05:29

解決方案1
0 2016-09-27 06:08:54

解決方案2
0 2016-09-27 06:41:44

解決方案3
0 已采納 2017-05-11 20:05:29