簡體   English   中英

查看Spark數據框的分區信息

[英]See information of partitions of a Spark Dataframe

可以具有一個Spark DataFrame的分區數組,如下所示:

> df.rdd.partitions

有沒有辦法獲取有關分區的更多信息? 特別是,我想查看分區鍵和分區邊界(分區中的第一個和最后一個元素)。

這只是為了更好地理解數據的組織方式。

這是我嘗試的:

> df.partitions.rdd.head

但是此對象僅具有equals hashCodeindex屬性和方法。

如果數據不是太大,可以按照以下步驟將它們寫入磁盤:

df.write.option("header", "true").csv("/tmp/foobar")

給定的目錄不能存在。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM