[英]Issue on configure hive on spark
我已經下載了spark-2.0.0-bin-hadoop2.7。 任何人都可以建議如何配置hive並在scala控制台中使用? 現在我可以使用Scala(spark-shell控制台)在文件上運行RDD。
將您的hive-site.xml放在spark conf目錄中
Hive可以支持多個執行引擎。 像TEZ,Spark一樣。 您可以在hive-site.xml中設置該屬性
</property>
<name>hive.execution.engine</name>
<value>spark</value>
<description>
I am choosing Spark as the execution engine
</description>
</property>
將jar-spark-assembly jar復制到HIVE_HOME / lib
設置spark_home
設置以下屬性
set spark.master=<Spark Master URL>
set spark.eventLog.enabled=true;
set spark.eventLog.dir=<Spark event log folder (must exist)>
set spark.executor.memory=512m;
set spark.serializer=org.apache.spark.serializer.KryoSerializer;
我認為上面的步驟就足夠了
關注官方Hive on Spark文檔:
https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started
您可以使用以下命令在Hive上設置Spark引擎:
set hive.execution.engine=spark;
或者在hive-site.xml上添加它(參考kanishka帖子)
然后在Hive 2.2.0之前,將spark-assembly jar復制到HIVE_HOME / lib。
從Hive 2.2.0開始,Spark上的Hive運行Spark 2.0.0及更高版本,它沒有裝配jar。
要以YARN模式(yarn-client或yarn-cluster)運行,請將以下jar復制到HIVE_HOME / lib。
斯卡拉庫
火花核心
火花網絡共同
設置spark_home:
export $SPARK_HOME=/path-to-spark
啟動Spark Master和Workers:
spark-class org.apache.spark.deploy.master.Master
spark-class org.apache.spark.deploy.worker.Worker spark://MASTER_IP:PORT
配置Spark:
set spark.master=<Spark Master URL>;
set spark.executor.memory=512m;
set spark.yarn.executor.memoryOverhead=10~20% of spark.executor.memory(value);
set spark.serializer=org.apache.spark.serializer.KryoSerializer;
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.