簡體   English   中英

Spark作為Hive的引擎

[英]Spark as an engine for Hive

我們可以使用Spark作為Hive的引擎嗎?

我們在Hive中有許多遺留系統和代碼庫,並且希望將Spark與Hive一起使用。

最好,

兩個選項,如果你想在spark上運行配置單元,它是可能的,但它是一個非常alpha功能: https//cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

恕我直言你最好使用Spark SQL和指定的HiveContext,你可以這樣使用:

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sqlContext.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sqlContext.sql("FROM src SELECT key, value").collect().foreach(println)

總而言之,我建議您使用Spark SQL加載Hive表,並通過Spark SQL的API重用所有Hive查詢。

您可以在這里找到更多信息: http//spark.apache.org/docs/1.2.0/sql-programming-guide.html

這是否回答你的問題 ?

問候,

您可以在spark執行引擎上執行配置單元查詢.Hive具有大量依賴項,這些依賴項不包含在默認的Spark分發中。 如果可以在類路徑上找到Hive依賴項,Spark將自動加載它們。

你可以在這里找到代碼: spark-hive-example

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM