繁体   English   中英

如何使用 pyspark 将数据帧转换为分配特定模式的 JSON 文件?

[英]How to convert a dataframe into a JSON file assigning a specific schema using pyspark?

我正在使用 pyspark,我想将 spark 数据帧转换为特定的文件 json。 数据框是这样的:

| Key  | desc | value |
|:---- |:----:| -----:|
| 12345| type | AA    |
| 12345| id   | q1w2e3|
| 98765| type | BB    |
| 98765| id   | z1x2c3|

我需要将它转换成这样的 json:

{
  "12345": {
     "type":"AA,
     "id":"q1w2e3"
    },
  "98765":{
     "type":"BB",
     "id":"z1x2c3"
    }
}

任何的想法? 谢谢

首先收集数据框

Output = df.collect()

如果你尝试打印“输出”,你会得到这样的行元组列表

[行(键:1234,desc:类型,值:AA)......]

现在使用 for 循环遍历此列表并创建字典并分配这些值,您可以像这样直接访问它们。

For row in Output:
     dict[key] = row[key]

创建字典后,您可以使用Json.dumps(dict)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM