[英]Reading Partitioned HIVE table in SPARK SQL
我正在尝试读取 HIVE 表有 2 年的数据并且它是在一天进行分区的,即使在过滤器应用了 6 个月的数据后,通过 SPARK-SQL 读取它也需要 10 多分钟。
知道如何改进,我已经尝试使用 Hive QL 中的 DISTRIBUTE BY 子句
您可以通过设置属性启用分区修剪:
spark.sql.hive.metastorePartitionPruning=true
这将过滤分区
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.