pyspark dataframe 有效 json

Question

我正在嘗試將 dataframe 轉換為有效的 json 格式，但我還沒有成功。

如果我這樣做：

fullDataset.repartition(1).write.json(f'{mount_point}/eds_ckan', mode='overwrite', ignoreNullFields=False)

我只得到基於行的 json，如下所示：

{"col1":"2021-10-09T12:00:00.000Z","col2":336,"col3":0.0}
{"col1":"2021-10-16T20:00:00.000Z","col2":779,"col3":6965.396}
{"col1":"2021-10-17T12:00:00.000Z","col2":350,"col3":0.0}

有誰知道如何將其轉換為不是基於行的有效 json？

Answer 1

下面是將 dataframe 轉換為有效 Json 的示例

嘗試使用Collect ，然后使用json.dump

import json
collected_df = df_final.collect()
with open(data_output_file + 'createjson.json', 'w') as outfile:
    json.dump(data, outfile)

這里有一些相關討論的鏈接，您可以通過 go 獲取完整信息。

Dataframe 有效 JSON

在 spark 中有效 JSON

pyspark dataframe 有效 json

問題描述

1 個解決方案

解決方案1
2 已采納 2022-03-01 13:31:02

pyspark dataframe 有效 json

問題描述

1 個解決方案

解決方案1 2 已采納 2022-03-01 13:31:02

解決方案1
2 已采納 2022-03-01 13:31:02