繁体   English   中英

将配置单元分区表加载到Spark Dataframe

[英]Load hive partitioned table to Spark Dataframe

我正在使用Spark 1.4.1版本。 我正在尝试将一个分区的Hive表加载到一个DataFrame中,该数据库中的Hive表中按year_week数字进行了分区,在这种情况下,我可能有104个分区。

但是我可以看到DataFrame正在将数据加载到200个分区中,并且我知道这是由于spark.sql.shuffle.partitions默认设置为200所致。

我想知道是否有什么好方法可以将Hive表加载到具有104个分区的Spark Dataframe中,并确保在Dataframe加载时间本身期间按year_week编号对Dataframe进行了分区。

我期望的原因是,我将很少使用巨大的卷表进行联接,所有表year_week数进行分区。 因此,将数据框按year_week号进行分区并进行相应的加载将为我节省很多时间,不再用year_week号对其进行分区。

如果您有任何建议,请告诉我。

谢谢。

使用hiveContext.sql("Select * from tableName where pt='2012.07.28.10'")

其中,pt = partitionKey,在您的情况下将是year_week及其对应的值。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM