[英]Load hive partitioned table to Spark Dataframe
我正在使用Spark 1.4.1
版本。 我正在尝试将一个分区的Hive表加载到一个DataFrame中,该数据库中的Hive表中按year_week
数字进行了分区,在这种情况下,我可能有104个分区。
但是我可以看到DataFrame正在将数据加载到200个分区中,并且我知道这是由于spark.sql.shuffle.partitions
默认设置为200所致。
我想知道是否有什么好方法可以将Hive表加载到具有104个分区的Spark Dataframe中,并确保在Dataframe加载时间本身期间按year_week
编号对Dataframe进行了分区。
我期望的原因是,我将很少使用巨大的卷表进行联接,所有表year_week
数进行分区。 因此,将数据框按year_week
号进行分区并进行相应的加载将为我节省很多时间,不再用year_week
号对其进行分区。
如果您有任何建议,请告诉我。
谢谢。
使用hiveContext.sql("Select * from tableName where pt='2012.07.28.10'")
其中,pt = partitionKey,在您的情况下将是year_week及其对应的值。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.