將嵌套字典鍵值轉換為 pyspark dataframe

Question

我有一個 Pyspark dataframe 看起來像這樣：

我想提取“dic”列中的那些嵌套字典並將它們轉換為 PySpark dataframe。 像這樣：

請讓我知道如何實現這一目標。

謝謝！

Answer 1

from pyspark.sql import functions as F

df.show() #sample dataframe

+---------+----------------------------------------------------------------------------------------------------------+
|timestmap|dic                                                                                                       |
+---------+----------------------------------------------------------------------------------------------------------+
|timestamp|{"Name":"David","Age":"25","Location":"New York","Height":"170","fields":{"Color":"Blue","Shape":"round"}}|
+---------+----------------------------------------------------------------------------------------------------------+

對於Spark2.4+ ，您可以使用from_json和schema_of_json 。

schema=df.select(F.schema_of_json(df.select("dic").first()[0])).first()[0]


df.withColumn("dic", F.from_json("dic", schema))\
  .selectExpr("dic.*").selectExpr("*","fields.*").drop("fields").show()

#+---+------+--------+-----+-----+-----+
#|Age|Height|Location| Name|Color|Shape|
#+---+------+--------+-----+-----+-----+
#| 25|   170|New York|David| Blue|round|
#+---+------+--------+-----+-----+-----+

如果您沒有spark2.4 ，您也可以將rdd方式與read.json一起使用。 df to rdd的轉換會對性能造成影響。

df1 = spark.read.json(df.rdd.map(lambda r: r.dic))\
   
df1.select(*[x for x in df1.columns if x!='fields'], F.col("fields.*")).show()

#+---+------+--------+-----+-----+-----+
#|Age|Height|Location| Name|Color|Shape|
#+---+------+--------+-----+-----+-----+
#| 25|   170|New York|David| Blue|round|
#+---+------+--------+-----+-----+-----+

將嵌套字典鍵值轉換為 pyspark dataframe

問題描述

1 個解決方案

解決方案1
2 2020-07-21 00:39:15

將嵌套字典鍵值轉換為 pyspark dataframe

問題描述

1 個解決方案

解決方案1 2 2020-07-21 00:39:15

解決方案1
2 2020-07-21 00:39:15