简体   繁体   English

如何在 Spark Scala 中获取 Hive 表的表统计信息到 Dataframe

[英]How to get Table Stats of Hive table into Dataframe in Spark Scala

I am working on a project on Spark scala Can I get table stats of a Hive table into a Dataframe for further calculations?我正在研究 Spark scala 上的一个项目,我可以将 Hive 表的表统计信息放入 Dataframe 以进行进一步计算吗?

I could see info of the table using我可以使用查看表格的信息

"show table stats table_name" “显示表统计表名称”

But can I get that info into a dataframe.但是我可以将这些信息放入 dataframe 中吗? Thanks谢谢

I think this is enough.我认为这就足够了。

val df = spark.sql("show table stats table_name")

But, my test for table stats not worked.但是,我对表格统计的测试不起作用。 I used an ANALYZE and DESCRIBE EXTENDED for the test.我使用了ANALYZEDESCRIBE EXTENDED进行测试。

spark.sql("analyze table table_name compute statistics")
val df = spark.sql("describe extended table_name")
df.show(false)

This gives a result.这给出了一个结果。

In spark2, you can import hive table data into data frames in either of below methods:在spark2中,您可以通过以下任一方法将hive表数据导入数据框:

Method1:方法1:

val df = spark.sql("select * from databasename.tablename")

Method2:方法2:

val df = spark.read.table("databasename.tablename")

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM