簡體   English   中英

pyspark dataframe 有效 json

[英]pyspark dataframe to valid json

我正在嘗試將 dataframe 轉換為有效的 json 格式,但我還沒有成功。

如果我這樣做:

fullDataset.repartition(1).write.json(f'{mount_point}/eds_ckan', mode='overwrite', ignoreNullFields=False)

我只得到基於行的 json,如下所示:

{"col1":"2021-10-09T12:00:00.000Z","col2":336,"col3":0.0}
{"col1":"2021-10-16T20:00:00.000Z","col2":779,"col3":6965.396}
{"col1":"2021-10-17T12:00:00.000Z","col2":350,"col3":0.0}

有誰知道如何將其轉換為不是基於行的有效 json?

下面是將 dataframe 轉換為有效 Json 的示例

嘗試使用Collect ,然后使用json.dump

import json
collected_df = df_final.collect()
with open(data_output_file + 'createjson.json', 'w') as outfile:
    json.dump(data, outfile)

這里有一些相關討論的鏈接,您可以通過 go 獲取完整信息。

Dataframe 有效 JSON

在 spark 中有效 JSON

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM