[英]See information of partitions of a Spark Dataframe
可以具有一个Spark DataFrame
的分区数组,如下所示:
> df.rdd.partitions
有没有办法获取有关分区的更多信息? 特别是,我想查看分区键和分区边界(分区中的第一个和最后一个元素)。
这只是为了更好地理解数据的组织方式。
这是我尝试的:
> df.partitions.rdd.head
但是此对象仅具有equals
hashCode
和index
属性和方法。
如果数据不是太大,可以按照以下步骤将它们写入磁盘:
df.write.option("header", "true").csv("/tmp/foobar")
给定的目录不能存在。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.