如何在Spark內部設置Hive數據庫連接

Question

火花和蜂巢的新手。 目前，我可以運行spark 1.5.2，也可以從命令行訪問hive。 我希望能夠以編程方式連接到配置單元數據庫，運行查詢並將數據提取到數據框，所有這些都在spark內部。 我認為這種工作流程是非常標准的。 但是我不知道該怎么做。

現在，我知道可以在火花中獲得HiveContext了：

import org.apache.spark.sql.hive.HiveContext;

我可以在蜂巢內進行所有查詢

SHOW TABLES; 
>>customers
  students
  ...

然后，我可以從表中獲取數據：

SELECT * FROM customers limit 100;

我該如何將這2個火花塞在一起？

謝謝。

Answer 1

// sc是現有的SparkContext。

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

//查詢以HiveQL表示

val tablelist = sqlContext.sql("show tables")
val custdf = sqlContext.sql("SELECT * FROM customers limit 100") 

tablelist.collect().foreach(println)     
custdf.collect().foreach(println)

如何在Spark內部設置Hive數據庫連接

問題描述

1 個解決方案

解決方案1
0 2016-10-31 19:49:26

如何在Spark內部設置Hive數據庫連接

問題描述

1 個解決方案

解決方案1 0 2016-10-31 19:49:26

解決方案1
0 2016-10-31 19:49:26