如何使用pandas通過多級嵌套將csv轉換為json

Question

我試着按照我在SO上看到的一堆答案，但我真的被困在這里。 我正在嘗試將CSV轉換為JSON。

JSON模式具有多個嵌套級別，並且將共享CSV中的某些值。

這是 CSV中一條記錄的鏈接。

將此示例視為附加到一個文檔的兩個不同方。

文檔上的字段（document_source_id，document_amount，record_date，source_url，document_file_url，document_type__title，apn，situs_county_id，state_code）不應重復。

雖然每個實體的字段都是唯一的。

我試圖使用復雜的groupby語句嵌套這些，但是我很難將數據存入我的模式。

這是我嘗試過的。 它不包含所有字段，因為我很難理解它的含義。

j = (df.groupby(['state_code', 
                 'record_date',
                 'situs_county_id',
                 'document_type__title',
                 'document_file_url',
                 'document_amount',
                 'source_url'], as_index=False)
             .apply(lambda x: x[['source_url']].to_dict('r'))
             .reset_index()
             .rename(columns={0:'metadata', 1:'parcels'})
             .to_json(orient='records'))

以下是示例CSV應如何輸出

{
   "metadata":{
      "source_url":"https://a836-acris.nyc.gov/DS/DocumentSearch/DocumentDetail?doc_id=2019012901225004",
      "document_file_url":"https://a836-acris.nyc.gov/DS/DocumentSearch/DocumentImageView?doc_id=2019012901225004"
   },
   "state_code":"NY",
   "nested_data":{
      "parcels":[
         {
            "apn":"3972-61",
            "situs_county_id":"36005"
         }
      ],
      "participants":[
         {
            "entity":{
               "name":"5 AIF WILLOW, LLC",
               "situs_street":"19800 MACARTHUR BLVD",
               "situs_city":"IRVINE",
               "situs_unit":"SUITE 1150",
               "state_code":"CA",
               "situs_zip":"92612"
            },
            "participation_type":"Grantee"
         },
         {
            "entity":{
               "name":"5 ARCH INCOME FUND 2, LLC",
               "situs_street":"19800 MACARTHUR BLVD",
               "situs_city":"IRVINE",
               "situs_unit":"SUITE 1150",
               "state_code":"CA",
               "situs_zip":"92612"
            },
            "participation_type":"Grantor"
         }
      ]
   },
   "record_date":"01/31/2019",
   "situs_county_id":"36005",
   "document_source_id":"2019012901225004",
   "document_type__title":"ASSIGNMENT, MORTGAGE"
}

Answer 1

您可能需要使用pandas.io.json中的json_normalize函數

from pandas.io.json import json_normalize
import csv
li = []
with open('filename.csv', 'r') as f:
    reader = csv.DictReader(csvfile)
        for row in reader:
          li.append(row)
df = json_normalize(li)

在這里，我們從csv文件創建一個字典列表，並從函數json_normalize創建一個數據幀。

Answer 2

以下是導出數據的一種方法：

# all columns used in groupby()
grouped_cols = ['state_code', 'record_date', 'situs_county_id', 'document_source_id'
    , 'document_type__title', 'source_url', 'document_file_url']

# adjust some column names to map to those in the 'entity' node in the desired JSON
situs_mapping = {
    'street_number_street_name': 'situs_street'
,   'city_name': 'situs_city'
,   'unit': 'situs_unit'
,   'state_code': 'state_code'
,   'zipcode_full': 'situs_zip'
}
# define columns used for 'entity' node. python 2 need to adjust to the syntax
entity_cols = ['name', *situs_mapping.values()]
#below for python 2#
#entity_cols = ['name'] + list(situs_mapping.values())

# specify output fields
output_cols = ['metadata','state_code','nested_data','record_date'
    , 'situs_county_id', 'document_source_id', 'document_type__title']

# define a function to get nested_data
def get_nested_data(d):
    return {
        'parcels': d[['apn', 'situs_county_id']].drop_duplicates().to_dict('r')
    ,   'participants': d[['entity', 'participation_type']].to_dict('r')
    }

j = (df.rename(columns=situs_mapping)
    .assign(entity=lambda x: x[entity_cols].to_dict('r'))
    .groupby(grouped_cols)
    .apply(get_nested_data)
    .reset_index()
    .rename(columns={0:'nested_data'})
    .assign(metadata=lambda x: x[['source_url', 'document_file_url']].to_dict('r'))[output_cols]
    .to_json(orient="records")
)

print(j)

注意：如果participants包含重復和必須運行drop_duplicates（）為我們做parcels ，然后assign(entity ）可以移動到限定participants在get_nested_data()函數：

    ,   'participants': d[['participation_type', *entity_cols]] \
           .drop_duplicates() \
           .assign(entity=lambda x: x[entity_cols].to_dict('r')) \
           .loc[:,['entity', 'participation_type']] \
           .to_dict('r')

如何使用pandas通過多級嵌套將csv轉換為json

問題描述

2 個解決方案

解決方案1
0 2019-03-23 21:30:52

解決方案2
0 2019-03-25 02:52:26

如何使用pandas通過多級嵌套將csv轉換為json

問題描述

2 個解決方案

解決方案1 0 2019-03-23 21:30:52

解決方案2 0 2019-03-25 02:52:26

解決方案1
0 2019-03-23 21:30:52

解決方案2
0 2019-03-25 02:52:26