从 json 字符串中提取多列

Question

我有一个 JSON 数据，我想以表格形式表示，然后将其写入不同的格式（镶木地板）

图式

root
|-- : string (nullable = true)

样本数据

+----------------------------------------------+

+----------------------------------------------+
|{"deviceTypeId":"A2A","deviceId":"123","geo...|
|{"deviceTypeId":"A2B","deviceId":"456","geo...|
+----------------------------------------------+

预计 Output

+--------------+------------+
|  deviceTypeId|deviceId|...| 
+--------------+--------+---+
|           A2A|     123|   |
|           A2B|     456|   |
+--------------+--------+---+

我尝试拆分字符串，但这似乎不是一种有效的方法

split_col = split(df_explode[''], ',')

然后提取列，但它也会附加初始字符串。

df_1 = df_explode.withColumn('deviceId',split_col.getItem(1))
# df_1 = df_explode.withColumn('deviceTypeId',split_col.getItem(0))
printOutput(df_1)

我正在寻找更好的方法来解决这个问题

Answer 1

Explode function 仅适用于 Array。

在您的情况下是 json，您应该使用 from_json function。

请从 pyspark.sql.functions 参考 from_json

Answer 2

我能够使用from_json function 来做到这一点。

#Convert json column to multiple columns
schema = getSchema()
dfJSON = df_explode.withColumn("jsonData",from_json(col(''),schema)) \
                   .select("jsonData.*")
dfJSON.printSchema()
dfJSON.limit(100).toPandas()

我们需要创建 Json 模式来解析 Json 数据。

def getSchema():
    schema = StructType([ 
                StructField('deviceTypeId', StringType()),
                StructField('deviceId', StringType()),
                ...
                ])
    return schema

此 Json 数据中的值字符串为空，因此 col 由空字符串组成

从 json 字符串中提取多列

问题描述

2 个解决方案

解决方案1
0 2022-12-06 14:41:13

解决方案2
0 2022-12-06 17:39:57

从 json 字符串中提取多列

问题描述

2 个解决方案

解决方案1 0 2022-12-06 14:41:13

解决方案2 0 2022-12-06 17:39:57

解决方案1
0 2022-12-06 14:41:13

解决方案2
0 2022-12-06 17:39:57