如何使用熊貓從嵌套JSON數組中提取值

Question

我有一個很大的JSON文件（400k行）。 我正在嘗試隔離以下內容：

政策-“說明”

策略項目-“用戶”和“數據庫值”

JSON文件-https: //pastebin.com/hv8mLfgx

熊貓的預期產量： https : //imgur.com/a/FVcNGsZ

在整個“文件”中，“策略項”之后的所有內容都會重復重復。 我已經嘗試了下面的代碼來隔離“用戶”。 它似乎不起作用，我正在嘗試將所有這些都轉儲為CSV。

Edit *這是我嘗試嘗試的解決方案，但無法使其正常工作- 對pandas dataframe的深度嵌套JSON響應

from pandas.io.json import json_normalize as Jnormal
import json
import pprint, csv
import re

with open("Ranger_Policies_20190204_195010.json") as file:
    jsonDF = json.load(file)
    for item in jsonDF['policies'][0]['policyItems'][0]:
        print ('{} - {} - {}'.format(jsonDF['users']))

編輯2：我有一些可以抓住一些用戶的工作代碼，但並不能抓住所有這些用戶。 25中只有11。

from pandas.io.json import json_normalize as Jnormal
import json
import pprint, csv
import re

with open("Ranger_Policies_20190204_195010.json") as file:
    jsonDF = json.load(file)
    pNode = Jnormal(jsonDF['policies'][0]['policyItems'], record_path='users')
    print(pNode.head(500))

編輯3：這是最終的工作副本，但是我仍然沒有復制我所有的TABLE數據。 我設置了一個循環以簡單地忽略一切。 捕獲所有內容，然后在Excel中對其進行排序，是否有人對我無法捕獲所有TABLE值有任何想法？

    json_data = json.load(file)
    with open("test.csv", 'w', newline='') as fd:
        wr = csv.writer(fd)
        wr.writerow(('Database name', 'Users', 'Description', 'Table'))
        for policy in json_data['policies']:
            desc = policy['description']
            db_values = policy['resources']['database']['values']
            db_tables = policy['resources']['table']['values']
            for item in policy['policyItems']:
                users = item['users']
                for dbT in db_tables:
                    for user in users:
                        for db in db_values:
                            _ = wr.writerow((db, user, desc, dbT))```

Answer 1

在這里，Pandas太過強大了：csv標准模塊就足夠了。 您只需迭代策略以提取描述和數據庫值，接下來訪問policyItems以提取用戶：

with open("Ranger_Policies_20190204_195010.json") as file:
    jsonDF = json.load(file)
with open("outputfile.csv", newline='') as fd:
    wr = csv.writer(fd)
    _ = wr.writerow(('Database name', 'Users', 'Description'))
    for policy in js['policies']:
        desc = policy['description']
        db_values = policy['resources']['database']['values']
        for item in policy['policyItems']:
            users = item['users']
            for user in users:
                for db in db_values:
                    if db != '*':
                        _ = wr.writerow((db, user, desc))

Answer 2

這是一種實現方法，假設您的json數據位於名為json_data的變量中

from itertools import product

def make_dfs(data):
    cols = ['db_name', 'user', 'description']

    for item in data.get('policies'):
        description = item.get('description')
        users = item.get('policyItems', [{}])[0].get('users', [None])
        db_name = item.get('resources', {}).get('database', {}).get('values', [None])
        db_name = [name for name in db_name if name != '*']
        prods = product(db_name, users, [description])
        yield pd.DataFrame.from_records(prods, columns=cols)

df = pd.concat(make_dfs(json_data), ignore_index=True)

print(df)

   db_name          user                               description
0    m2_db          hive  Policy for all - database, table, column
1    m2_db  rangerlookup  Policy for all - database, table, column
2    m2_db     ambari-qa  Policy for all - database, table, column
3    m2_db          af34  Policy for all - database, table, column
4    m2_db          g748  Policy for all - database, table, column
5    m2_db          hdfs  Policy for all - database, table, column
6    m2_db          dh10  Policy for all - database, table, column
7    m2_db          gs22  Policy for all - database, table, column
8    m2_db          dh27  Policy for all - database, table, column
9    m2_db          ct52  Policy for all - database, table, column
10   m2_db  livy_pyspark  Policy for all - database, table, column

在Python 3.5.1和pandas==0.23.4上測試

如何使用熊貓從嵌套JSON數組中提取值

問題描述

2 個解決方案

解決方案1
2 2019-02-12 19:12:24

解決方案2
1 2019-02-12 18:46:13

如何使用熊貓從嵌套JSON數組中提取值

問題描述

2 個解決方案

解決方案1 2 2019-02-12 19:12:24

解決方案2 1 2019-02-12 18:46:13

解決方案1
2 2019-02-12 19:12:24

解決方案2
1 2019-02-12 18:46:13