將 Spark DataFrame 的架構轉換為另一個 DataFrame

Question

我在 PySpark 上有一個 Spark DataFrame，我想將其架構存儲到另一個 Spark DataFrame 中。

例如：我有一個樣本 DataFrame df看起來像 -

+---+-------------------+
| id|                  v|
+---+-------------------+
|  0| 0.4707538108432022|
|  0|0.39170676690905415|
|  0| 0.8249512619546295|
|  0| 0.3366111661094958|
|  0| 0.8974360488327017|
+---+-------------------+

我可以通過以下方式查看df的架構 -

df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- v: double (nullable = false)

我需要的是一個 DataFrame ，它在col_name和dtype兩列中顯示有關df的上述信息。

預期 Output：

+---------+-------------------+
| col_name|              dtype|
+---------+-------------------+
|       id|            integer|
|        v|             double|
+---------+-------------------+

我如何實現這一目標？ 我找不到有關此的任何信息。 謝謝。

Answer 1

最簡單的方法是從df.dtypes ：

spark.createDataFrame(df.dtypes, ["col_name", "dtype"]).show()
#+--------+------+
#|col_name| dtype|
#+--------+------+
#|      id|   int|
#|       v|double|
#+--------+------+

但是，如果您希望dtype列如printSchema中所示，您可以通過df.schema來實現

spark.createDataFrame(
    [(d['name'], d['type']) for d in df.schema.jsonValue()['fields']],
    ["col_name", "dtype"]
).show()
#+--------+-------+
#|col_name|  dtype|
#+--------+-------+
#|      id|integer|
#|       v| double|
#+--------+-------+

將 Spark DataFrame 的架構轉換為另一個 DataFrame

問題描述

1 個解決方案

解決方案1
1 已采納 2019-10-23 16:53:58

將 Spark DataFrame 的架構轉換為另一個 DataFrame

問題描述

1 個解決方案

解決方案1 1 已采納 2019-10-23 16:53:58

解決方案1
1 已采納 2019-10-23 16:53:58