[英]See information of partitions of a Spark Dataframe
可以具有一個Spark DataFrame
的分區數組,如下所示:
> df.rdd.partitions
有沒有辦法獲取有關分區的更多信息? 特別是,我想查看分區鍵和分區邊界(分區中的第一個和最后一個元素)。
這只是為了更好地理解數據的組織方式。
這是我嘗試的:
> df.partitions.rdd.head
但是此對象僅具有equals
hashCode
和index
屬性和方法。
如果數據不是太大,可以按照以下步驟將它們寫入磁盤:
df.write.option("header", "true").csv("/tmp/foobar")
給定的目錄不能存在。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.