Pyspark將多列合並成一個json列

Question

不久前我為 python 提出了這個問題，但現在我需要在 PySpark 中做同樣的事情。

我有一個像這樣的數據框（df）：

|cust_id|address    |store_id|email        |sales_channel|category|
-------------------------------------------------------------------
|1234567|123 Main St|10SjtT  |idk@gmail.com|ecom         |direct  |
|4567345|345 Main St|10SjtT  |101@gmail.com|instore      |direct  |
|1569457|876 Main St|51FstT  |404@gmail.com|ecom         |direct  |

我想將最后 4 個字段組合成一個元數據字段，它是一個 json 格式，如下所示：

|cust_id|address    |metadata                                                                                     |
-------------------------------------------------------------------------------------------------------------------
|1234567|123 Main St|{'store_id':'10SjtT', 'email':'idk@gmail.com','sales_channel':'ecom', 'category':'direct'}   |
|4567345|345 Main St|{'store_id':'10SjtT', 'email':'101@gmail.com','sales_channel':'instore', 'category':'direct'}|
|1569457|876 Main St|{'store_id':'51FstT', 'email':'404@gmail.com','sales_channel':'ecom', 'category':'direct'}   |

這是我用來在 python 中執行此操作的代碼：

cols = [
    'store_id',
    'store_category',
    'sales_channel',
    'email'
]

df1 = df.copy()
df1['metadata'] = df1[cols].to_dict(orient='records')
df1 = df1.drop(columns=cols)

但我想將其轉換為 PySpark 代碼以使用 spark 數據框； 我不想在 Spark 中使用熊貓。

Answer 1

使用to_json函數創建 json 對象！

Example:

from pyspark.sql.functions import *

#sample data
df=spark.createDataFrame([('1234567','123 Main St','10SjtT','idk@gmail.com','ecom','direct')],['cust_id','address','store_id','email','sales_channel','category'])

df.select("cust_id","address",to_json(struct("store_id","category","sales_channel","email")).alias("metadata")).show(10,False)

#result
+-------+-----------+----------------------------------------------------------------------------------------+
|cust_id|address    |metadata                                                                                |
+-------+-----------+----------------------------------------------------------------------------------------+
|1234567|123 Main St|{"store_id":"10SjtT","category":"direct","sales_channel":"ecom","email":"idk@gmail.com"}|
+-------+-----------+----------------------------------------------------------------------------------------+

to_json by passing list of columns:

ll=['store_id','email','sales_channel','category']

df.withColumn("metadata", to_json(struct([x for x in ll]))).drop(*ll).show()

#result
+-------+-----------+----------------------------------------------------------------------------------------+
|cust_id|address    |metadata                                                                                |
+-------+-----------+----------------------------------------------------------------------------------------+
|1234567|123 Main St|{"store_id":"10SjtT","email":"idk@gmail.com","sales_channel":"ecom","category":"direct"}|
+-------+-----------+----------------------------------------------------------------------------------------+

Answer 2

@Shu 給出了一個很好的答案，這是一個更適合我的用例的變體。 我將從 Kafka -> Spark -> Kafka 出發，這個班輪正是我想要的。 struct(*)將打包數據幀中的所有字段。

# Packup the fields in preparation for sending to Kafka sink
kafka_df = df.selectExpr('cast(id as string) as key', 'to_json(struct(*)) as value')

Pyspark將多列合並成一個json列

問題描述

2 個解決方案

解決方案1
12 已采納 2020-02-27 15:10:31

解決方案2
0 2021-01-31 02:02:10

Pyspark將多列合並成一個json列

問題描述

2 個解決方案

解決方案1 12 已采納 2020-02-27 15:10:31

解決方案2 0 2021-01-31 02:02:10

解決方案1
12 已采納 2020-02-27 15:10:31

解決方案2
0 2021-01-31 02:02:10