PySpark dataframe 轉換 - 從 JSON 獲取價值部分

Question

我有一個 dataframe 如下所示，它同時具有鍵和值對。

| Name |  Age | Location
| abc  |  12  | loc1
| def  |  13  | loc2

我想用它創建一個 json 字符串。 當我執行.toJSON()並收集時，我從該 dataframe 中獲取了以下 json 字符串

[{"name":"abc","age":12,"location":"loc1"},{"name":"def","age":13,"location":"loc2"}]

是否可以只獲取 json 的值部分而不是獲取如下所示的密鑰？

預期 output：

[{"abc",12,"loc1"},{"def",13,"loc2"}]

我用來將 dataframe 轉換為 json 的代碼

df.toJSON().collect()

如果我們能在 PYSPARK 中得到一些解決方案，那就太好了。

Answer 1

您期望的結果不是有效的 JSON，因此您不能在 dataframe 或to_json function 上使用toJSON() 。

您可以嘗試使用format_string function 來獲得所需的結構：

from pyspark.sql import functions as F

result = df.groupBy().agg(
    F.collect_list(
        F.format_string('{"%s", %s, "%s"}', *df.columns)
    ).alias("records")
).first()["records"]

print(result)
# ['{"abc", 12, "loc1"}', '{"def", 13, "loc2"}']

PySpark dataframe 轉換 - 從 JSON 獲取價值部分

問題描述

1 個解決方案

解決方案1
1 已采納 2021-12-21 14:20:52

PySpark dataframe 轉換 - 從 JSON 獲取價值部分

問題描述

1 個解決方案

解決方案1 1 已采納 2021-12-21 14:20:52

解決方案1
1 已采納 2021-12-21 14:20:52