在Spark中计算Hive表的统计信息

Question

我创建了一个DataFrame来加载CSV文件，并创建了一个临时表来获取列统计信息。

但是，当我尝试运行ANALYZE命令时，我面临以下错误。相同的Analyze命令成功运行在Hive中。

Spark版本：1.6.3

df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true") 
.option("mode", "DROPMALFORMED")
.load("/bn_data/bopis/*.csv")

// To get the statistics of columns
df.registerTempTable("bopis")

val stat=sqlContext.sql("analyze table bopis compute statistics for columns").show()

错误：

    java.lang.RuntimeException: [1.1] failure: ``with'' expected but identifier analyze found

analyze table bopis compute statistics for columns
^

请告诉我们如何使用Spark实现列统计信息

谢谢。！

Answer 1

如果使用FOR COLUMNS选项，则必须传递列名列表，请参阅https://docs.databricks.com/spark/latest/spark-sql/language-manual/analyze-table.html

在任何情况下，即使您这样做，也会出现错误，因为您无法在临时表上运行计算统计信息。 （你会Table or view 'bopis' not found in database 'default'一个Table or view 'bopis' not found in database 'default' ）。

您必须通过df.write.saveAsTable("bopis_hive")或sqlContext.sql("CREATE TABLE bopis_hive as SELECT * from bopis")创建一个完整的Hive表。

在Spark中计算Hive表的统计信息

问题描述

1 个解决方案

解决方案1
0 已采纳 2019-03-21 15:56:19

在Spark中计算Hive表的统计信息

问题描述

1 个解决方案

解决方案1 0 已采纳 2019-03-21 15:56:19

解决方案1
0 已采纳 2019-03-21 15:56:19