查看Spark數據框的分區信息

Question

可以具有一個Spark DataFrame的分區數組，如下所示：

> df.rdd.partitions

有沒有辦法獲取有關分區的更多信息？ 特別是，我想查看分區鍵和分區邊界（分區中的第一個和最后一個元素）。

這只是為了更好地理解數據的組織方式。

這是我嘗試的：

> df.partitions.rdd.head

但是此對象僅具有equals hashCode和index屬性和方法。

Answer 1

如果數據不是太大，可以按照以下步驟將它們寫入磁盤：

df.write.option("header", "true").csv("/tmp/foobar")

給定的目錄不能存在。