繁体 English 中英

将配置单元分区表加载到Spark Dataframe

[英]Load hive partitioned table to Spark Dataframe

原文 2016-03-28 15:52:44 1 1 hadoop/ apache-spark/ hive/ apache-spark-sql/ spark-dataframe

我正在使用Spark 1.4.1版本。 我正在尝试将一个分区的Hive表加载到一个DataFrame中，该数据库中的Hive表中按year_week数字进行了分区，在这种情况下，我可能有104个分区。

但是我可以看到DataFrame正在将数据加载到200个分区中，并且我知道这是由于spark.sql.shuffle.partitions默认设置为200所致。

我想知道是否有什么好方法可以将Hive表加载到具有104个分区的Spark Dataframe中，并确保在Dataframe加载时间本身期间按year_week编号对Dataframe进行了分区。

我期望的原因是，我将很少使用巨大的卷表进行联接，所有表year_week数进行分区。 因此，将数据框按year_week号进行分区并进行相应的加载将为我节省很多时间，不再用year_week号对其进行分区。

如果您有任何建议，请告诉我。

谢谢。

1 个解决方案

使用hiveContext.sql("Select * from tableName where pt='2012.07.28.10'")

其中，pt = partitionKey，在您的情况下将是year_week及其对应的值。

在 Hive 中将 Spark 数据帧另存为动态分区表

[英]Save Spark dataframe as dynamic partitioned table in Hive

读取 SPARK SQL 中的分区 HIVE 表

[英]Reading Partitioned HIVE table in SPARK SQL

从spark（2.11）数据帧写入配置单元分区表时，org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions异常

[英]org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions exception when writing a hive partitioned table from spark(2.11) dataframe

无法加载 Hive 分区表中的数据

[英]Unable to load data in Hive partitioned table

如何加载分区到 Hbase 表的 hive orc

[英]How to load hive orc partitioned to Hbase table

无法将数据加载到Hive中的分区表中

[英]Not able to load data into partitioned table in hive

Hive 加载多个分区的 HDFS 文件到表

[英]Hive load multiple partitioned HDFS file to table

Spark将数据写入分区的Hive表非常慢

[英]Spark write data into partitioned Hive table very slow

无法从 spark sql 插入到 hive 分区表

[英]Unable to insert to hive partitioned table from spark sql

使用USING和PARTITIONED BY子句的spark hive create table的有效语法是什么？

[英]What is valid syntax for spark hive create table with USING and PARTITIONED BY clauses?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 Hive 中将 Spark 数据帧另存为动态分区表读取 SPARK SQL 中的分区 HIVE 表从spark（2.11）数据帧写入配置单元分区表时，org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions异常无法加载 Hive 分区表中的数据如何加载分区到 Hbase 表的 hive orc 无法将数据加载到Hive中的分区表中 Hive 加载多个分区的 HDFS 文件到表 Spark将数据写入分区的Hive表非常慢无法从 spark sql 插入到 hive 分区表使用USING和PARTITIONED BY子句的spark hive create table的有效语法是什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM