Spark作為Hive的引擎

Question

我們可以使用Spark作為Hive的引擎嗎？

我們在Hive中有許多遺留系統和代碼庫，並且希望將Spark與Hive一起使用。

最好，

Answer 1

兩個選項，如果你想在spark上運行配置單元，它是可能的，但它是一個非常alpha功能： https ： //cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

恕我直言你最好使用Spark SQL和指定的HiveContext，你可以這樣使用：

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sqlContext.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sqlContext.sql("FROM src SELECT key, value").collect().foreach(println)

總而言之，我建議您使用Spark SQL加載Hive表，並通過Spark SQL的API重用所有Hive查詢。

您可以在這里找到更多信息： http ： //spark.apache.org/docs/1.2.0/sql-programming-guide.html

這是否回答你的問題？

問候，

Answer 2

您可以在spark執行引擎上執行配置單元查詢.Hive具有大量依賴項，這些依賴項不包含在默認的Spark分發中。 如果可以在類路徑上找到Hive依賴項，Spark將自動加載它們。

你可以在這里找到代碼： spark-hive-example

Spark作為Hive的引擎

問題描述

2 個解決方案

解決方案1
4 已采納 2015-03-03 21:47:55

解決方案2
0 2016-09-27 23:51:18

Spark作為Hive的引擎

問題描述

2 個解決方案

解決方案1 4 已采納 2015-03-03 21:47:55

解決方案2 0 2016-09-27 23:51:18

解決方案1
4 已采納 2015-03-03 21:47:55

解決方案2
0 2016-09-27 23:51:18