如何在 python (pandas) 中将嵌套 JSON 格式的特定部分解析为 csv

Question

我有一个嵌套的 JSON 文件，我无法将其解析为扁平化 csv。 我想在 csv 中包含以下列：id、名称、路径、标签（每列一列）、点（我需要 4 个点的 x\y 值）

JSON 输入示例：

{
"name": "test",
"securityToken": "test Token",
"videoSettings": {
    "frameExtractionRate": 15
},
"tags": [
    {
        "name": "Blur Reject",
        "color": "#FF0000"
    },
    {
        "name": "Blur Poor",
        "color": "#800000"
    }
],
"id": "Du1qtrZQ1",
"activeLearningSettings": {
    "autoDetect": false,
    "predictTag": true,
    "modelPathType": "coco"
},
"version": "2.1.0",
"lastVisitedAssetId": "ddee3e694ec299432fed9e42de8741ad",
"assets": {
    "0b8f6f214dc7066b00b50ae16cf25cf6": {
        "asset": {
            "format": "jpg",
            "id": "0b8f6f214dc7066b00b50ae16cf25cf6",
            "name": "1.jpg",
            "path": "c:\temp\1.jpg",
            "size": {
                "width": 1500,
                "height": 1125
            },
            "state": 2,
            "type": 1
        },
        "regions": [
            {
                "id": "VtDyR9Ovl",
                "type": "POLYGON",
                "tags": [
                    "3",
                    "9",
                    "Dark Poor"
                ],
                "boundingBox": {
                    "height": 695.2110389610389,
                    "width": 1111.607142857143,
                    "left": 167.41071428571428,
                    "top": 241.07142857142856
                },
                "points": [
                    {
                        "x": 167.41071428571428,
                        "y": 252.02922077922076
                    },
                    {
                        "x": 208.80681818181816,
                        "y": 891.2337662337662
                    },
                    {
                        "x": 1252.232142857143,
                        "y": 936.2824675324675
                    },
                    {
                        "x": 1279.017857142857,
                        "y": 241.07142857142856
                    }
                ]
            }
        ],
        "version": "2.1.0"
    },
    "0155d8143c8cad85b5b9d392fd2895a4": {
        "asset": {
            "format": "jpg",
            "id": "0155d8143c8cad85b5b9d392fd2895a4",
            "name": "2.jpg",
            "path": "c:\temp\2.jpg",
            "size": {
                "width": 1080,
                "height": 1920
            },
            "state": 2,
            "type": 1
        },
        "regions": [
            {
                "id": "7FFl_diM2",
                "type": "POLYGON",
                "tags": [
                    "Dark Poor"
                ],
                "boundingBox": {
                    "height": 502.85714285714283,
                    "width": 820.3846153846155,
                    "left": 144.08653846153848,
                    "top": 299.2207792207792
                },
                "points": [
                    {
                        "x": 152.39423076923077,
                        "y": 311.68831168831167
                    },
                    {
                        "x": 144.08653846153848,
                        "y": 802.077922077922
                    },
                    {
                        "x": 964.4711538461539,
                        "y": 781.2987012987012
                    },
                    {
                        "x": 935.3942307692308,
                        "y": 299.2207792207792
                    }
                ]
            }
        ],
        "version": "2.1.0"
    }

}

我尝试使用 pandas 的 json_normalize 并意识到我不完全理解如何指定我希望解析的列：

import json
import csv
import pandas as pd
from pandas import Series, DataFrame
from pandas.io.json import json_normalize 


f = open(r'c:\temp\test-export.json') 
data = json.load(f) # load as json
f.close()
df = json_normalize(data) #load json into dataframe
df.to_csv(r'c:\temp\json-to-csv.csv', sep=',', encoding='utf-8')

结果很难处理，因为我没有指定我想要的（迭代槽特定数组并将其附加到 CSV），我希望你能提供帮助。

我假设我不完全理解规范化是如何工作的，并且怀疑它不是处理这个问题的最佳方法。

谢谢！

Answer 1

你可以这样做。 由于您没有提供示例输出，我自己做了一些事情。

import json
import csv

f = open(r'file.txt')
data = json.load(f)
f.close()
with open("output.csv", mode="w", newline='') as out:
    w = csv.writer(out)
    header = ["id","name","path","tags","points"]
    w.writerow(header)
    for asset in data["assets"]:
        data_point = data["assets"][asset]
        output = [data_point["asset"]["id"]]
        output.append(data_point["asset"]["name"])
        output.append(data_point["asset"]["path"])
        output.append(data_point["regions"][0]["tags"])
        output.append(data_point["regions"][0]["points"])
        w.writerow(output)

输出

id,name,path,tags,points
0b8f6f214dc7066b00b50ae16cf25cf6,1.jpg,c:\temp\1.jpg,"['3', '9', 'Dark Poor']","[{'x': 167.41071428571428, 'y': 252.02922077922076}, {'x': 208.80681818181816, 'y': 891.2337662337662}, {'x': 1252.232142857143, 'y': 936.2824675324675}, {'x': 1279.017857142857, 'y': 241.07142857142856}]"
0155d8143c8cad85b5b9d392fd2895a4,2.jpg,c:\temp\2.jpg,['Dark Poor'],"[{'x': 152.39423076923077, 'y': 311.68831168831167}, {'x': 144.08653846153848, 'y': 802.077922077922}, {'x': 964.4711538461539, 'y': 781.2987012987012}, {'x': 935.3942307692308, 'y': 299.2207792207792}]"

如何在 python (pandas) 中将嵌套 JSON 格式的特定部分解析为 csv

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-01-22 15:12:49

输出

如何在 python (pandas) 中将嵌套 JSON 格式的特定部分解析为 csv

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-01-22 15:12:49

输出

解决方案1
0 已采纳 2020-01-22 15:12:49