如何使用 pyspark 将数据帧转换为分配特定模式的 JSON 文件？

Question

我正在使用 pyspark，我想将 spark 数据帧转换为特定的文件 json。 数据框是这样的：

| Key  | desc | value |
|:---- |:----:| -----:|
| 12345| type | AA    |
| 12345| id   | q1w2e3|
| 98765| type | BB    |
| 98765| id   | z1x2c3|

我需要将它转换成这样的 json：

{
  "12345": {
     "type":"AA,
     "id":"q1w2e3"
    },
  "98765":{
     "type":"BB",
     "id":"z1x2c3"
    }
}

任何的想法？ 谢谢

Answer 1

首先收集数据框

Output = df.collect()

如果你尝试打印“输出”，你会得到这样的行元组列表

[行（键：1234，desc：类型，值：AA）......]

现在使用 for 循环遍历此列表并创建字典并分配这些值，您可以像这样直接访问它们。

For row in Output:
     dict[key] = row[key]

创建字典后，您可以使用Json.dumps(dict)