Spark作为Hive的引擎

Question

我们可以使用Spark作为Hive的引擎吗？

我们在Hive中有许多遗留系统和代码库，并且希望将Spark与Hive一起使用。

最好，

Answer 1

两个选项，如果你想在spark上运行配置单元，它是可能的，但它是一个非常alpha功能： https ： //cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

恕我直言你最好使用Spark SQL和指定的HiveContext，你可以这样使用：

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sqlContext.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sqlContext.sql("FROM src SELECT key, value").collect().foreach(println)

总而言之，我建议您使用Spark SQL加载Hive表，并通过Spark SQL的API重用所有Hive查询。

您可以在这里找到更多信息： http ： //spark.apache.org/docs/1.2.0/sql-programming-guide.html

这是否回答你的问题？

问候，

Answer 2

您可以在spark执行引擎上执行配置单元查询.Hive具有大量依赖项，这些依赖项不包含在默认的Spark分发中。 如果可以在类路径上找到Hive依赖项，Spark将自动加载它们。

你可以在这里找到代码： spark-hive-example

Spark作为Hive的引擎

问题描述

2 个解决方案

解决方案1
4 已采纳 2015-03-03 21:47:55

解决方案2
0 2016-09-27 23:51:18

Spark作为Hive的引擎

问题描述

2 个解决方案

解决方案1 4 已采纳 2015-03-03 21:47:55

解决方案2 0 2016-09-27 23:51:18

解决方案1
4 已采纳 2015-03-03 21:47:55

解决方案2
0 2016-09-27 23:51:18