[英]How to convert a dataframe into a JSON file assigning a specific schema using pyspark?
我正在使用 pyspark,我想将 spark 数据帧转换为特定的文件 json。 数据框是这样的:
| Key | desc | value |
|:---- |:----:| -----:|
| 12345| type | AA |
| 12345| id | q1w2e3|
| 98765| type | BB |
| 98765| id | z1x2c3|
我需要将它转换成这样的 json:
{
"12345": {
"type":"AA,
"id":"q1w2e3"
},
"98765":{
"type":"BB",
"id":"z1x2c3"
}
}
任何的想法? 谢谢
首先收集数据框
Output = df.collect()
如果你尝试打印“输出”,你会得到这样的行元组列表
[行(键:1234,desc:类型,值:AA)......]
现在使用 for 循环遍历此列表并创建字典并分配这些值,您可以像这样直接访问它们。
For row in Output:
dict[key] = row[key]
创建字典后,您可以使用Json.dumps(dict)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.