[英]how to set up hive database connection inside spark
火花和蜂巢的新手。 目前,我可以運行spark 1.5.2,也可以從命令行訪問hive。 我希望能夠以編程方式連接到配置單元數據庫,運行查詢並將數據提取到數據框,所有這些都在spark內部。 我認為這種工作流程是非常標准的。 但是我不知道該怎么做。
現在,我知道可以在火花中獲得HiveContext了:
import org.apache.spark.sql.hive.HiveContext;
我可以在蜂巢內進行所有查詢
SHOW TABLES;
>>customers
students
...
然后,我可以從表中獲取數據:
SELECT * FROM customers limit 100;
我該如何將這2個火花塞在一起?
謝謝。
// sc是現有的SparkContext。
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
//查詢以HiveQL表示
val tablelist = sqlContext.sql("show tables")
val custdf = sqlContext.sql("SELECT * FROM customers limit 100")
tablelist.collect().foreach(println)
custdf.collect().foreach(println)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.