簡體   English   中英

如何在Spark內部設置Hive數據庫連接

[英]how to set up hive database connection inside spark

火花和蜂巢的新手。 目前,我可以運行spark 1.5.2,也可以從命令行訪問hive。 我希望能夠以編程方式連接到配置單元數據庫,運行查詢並將數據提取到數據框,所有這些都在spark內部。 我認為這種工作流程是非常標准的。 但是我不知道該怎么做。

現在,我知道可以在火花中獲得HiveContext了:

import org.apache.spark.sql.hive.HiveContext;

我可以在蜂巢內進行所有查詢

SHOW TABLES; 
>>customers
  students
  ...

然后,我可以從表中獲取數據:

SELECT * FROM customers limit 100;

我該如何將這2個火花塞在一起?

謝謝。

// sc是現有的SparkContext。

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

//查詢以HiveQL表示

val tablelist = sqlContext.sql("show tables")
val custdf = sqlContext.sql("SELECT * FROM customers limit 100") 

tablelist.collect().foreach(println)     
custdf.collect().foreach(println)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM