繁体 English 中英

读取 SPARK SQL 中的分区 HIVE 表

[英]Reading Partitioned HIVE table in SPARK SQL

原文 2019-10-09 06:42:26 5 1 scala/ apache-spark/ hadoop/ apache-spark-sql

我正在尝试读取 HIVE 表有 2 年的数据并且它是在一天进行分区的，即使在过滤器应用了 6 个月的数据后，通过 SPARK-SQL 读取它也需要 10 多分钟。

知道如何改进，我已经尝试使用 Hive QL 中的 DISTRIBUTE BY 子句

1 个解决方案

您可以通过设置属性启用分区修剪：

spark.sql.hive.metastorePartitionPruning=true

这将过滤分区

Hive基于Spark临时表创建分区表

[英]Hive create partitioned table based on Spark temporary table

尽管有Spark过滤器，但Hive分区表会读取所有分区

[英]Hive partitioned table reads all the partitions despite having a Spark filter

Spark 不使用来自 Hive 分区外部表的分区信息

[英]Spark not using partition information from Hive partitioned external table

从Spark读取Hive表作为数据集

[英]Reading Hive table from Spark as a Dataset

如何访问 Spark sql 中的 HIVE ACID 表？

[英]How to access the HIVE ACID table in Spark sql?

Scala Spark Sql - 从 Hive 行读取 null 值

[英]Scala Spark Sql - Reading null values from a Hive row

从Hive表中读取行并在Scala-Spark中写入文件

[英]Reading rows from Hive table and write to file in Scala-Spark

Spark SQL为Hive构建吗？

[英]Spark SQL build for hive?

Spark 分区 Hive 表

[英]Spark Partitioning Hive Table

Spark中的Hive表

[英]Hive table in Spark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Hive基于Spark临时表创建分区表尽管有Spark过滤器，但Hive分区表会读取所有分区 Spark 不使用来自 Hive 分区外部表的分区信息从Spark读取Hive表作为数据集如何访问 Spark sql 中的 HIVE ACID 表？ Scala Spark Sql - 从 Hive 行读取 null 值从Hive表中读取行并在Scala-Spark中写入文件 Spark SQL为Hive构建吗？ Spark 分区 Hive 表 Spark中的Hive表

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM