[英]how to set up hive database connection inside spark
火花和蜂巢的新手。 目前,我可以运行spark 1.5.2,也可以从命令行访问hive。 我希望能够以编程方式连接到配置单元数据库,运行查询并将数据提取到数据框,所有这些都在spark内部。 我认为这种工作流程是非常标准的。 但是我不知道该怎么做。
现在,我知道可以在火花中获得HiveContext了:
import org.apache.spark.sql.hive.HiveContext;
我可以在蜂巢内进行所有查询
SHOW TABLES;
>>customers
students
...
然后,我可以从表中获取数据:
SELECT * FROM customers limit 100;
我该如何将这2个火花塞在一起?
谢谢。
// sc是现有的SparkContext。
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
//查询以HiveQL表示
val tablelist = sqlContext.sql("show tables")
val custdf = sqlContext.sql("SELECT * FROM customers limit 100")
tablelist.collect().foreach(println)
custdf.collect().foreach(println)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.