簡體   English   中英

帶有空列表的嵌套字典到 Pandas dataframe 列

[英]Nested dicts with empty lists to Pandas dataframe columns

我有一些來自 API 的數據,我正在嘗試將其轉換為 Pandas dataframe。我正在努力從嵌套字典中的列表中提取“station_xyz__cr”id 號(其中列表可以為空,如中間數據集)。

output = {'data': [{'abc_serial_number__c': 'ABC2020-07571',
       'id': 'V48000000000F79',
       'modified_date__v': '2020-06-15T05:13:14.000Z',
       'name__v': 'VVV-001039',
       'station_xyz__cr': {'data': [{'id': 'V5J000000000B86'}],
                           'responseDetails': {'limit': 250,
                                               'offset': 0,
                                               'size': 1,
                                               'total': 1}}},
      {'abc_serial_number__c': 'ABC2020-09952',
       'id': 'V48000000001B94',
       'modified_date__v': '2020-06-24T11:30:40.000Z',
       'name__v': 'VVV-004040',
       'station_xyz__cr': {'data': [],
                           'responseDetails': {'limit': 250,
                                               'offset': 0,
                                               'size': 1,
                                               'total': 1}}},
      {'abc_serial_number__c': 'ABC2020-09196',
       'id': 'V48000000001B95',
       'modified_date__v': '2020-06-23T09:38:18.000Z',
       'name__v': 'VVV-004041',
       'station_xyz__cr': {'data': [{'id': 'V5J000000000Z10'}],
                           'responseDetails': {'limit': 250,
                                               'offset': 0,
                                               'size': 1,
                                               'total': 1}}}],
 'responseDetails': {'limit': 1000, 'offset': 0, 'size': 3, 'total': 3},
 'responseStatus': 'SUCCESS'}

我正在嘗試將嵌套的 id 數據放入 dataframe 的列中,如下所示:

   station_xyz__cr.data.id
0          V5J000000000B86
1                     None 
2          V5J000000000Z10

我嘗試使用 json_normalize 轉換為 dataframe(刪除我不需要的列):

df = pd.json_normalize(output['data'])
df = df.loc[:, ~df.columns.str.startswith('station_xyz__cr.responseDetails')]
print(df)

  abc_serial_number__c               id          modified_date__v     name__v  \
0        ABC2020-07571  V48000000000F79  2020-06-15T05:13:14.000Z  VVV-001039   
1        ABC2020-09952  V48000000001B94  2020-06-24T11:30:40.000Z  VVV-004040   
2        ABC2020-09196  V48000000001B95  2020-06-23T09:38:18.000Z  VVV-004041   

          station_xyz__cr.data  
0  [{'id': 'V5J000000000B86'}]  
1                           []  
2  [{'id': 'V5J000000000Z10'}] 

但我正在努力將字典的“station_xyz__cr.data”列表轉換為簡單的 ID dataframe:

df2 = pd.DataFrame(df['station_xyz__cr.data'].tolist(), index= df.index)
df2 = df2.rename(columns = {0:'station_xyz__cr.data'})
df2

        station_xyz__cr.data
0  {'id': 'V5J000000000B86'}
1                       None
2  {'id': 'V5J000000000Z10'}

當我試圖進一步提取時,“無”給我帶來了問題。 我嘗試替換 None - 但我只能替換為 0:

df.fillna(0, inplace=True)

獲取 None 值的行索引。 使用行索引作為掩碼,將行、列組合設置為與數據流下一階段的列值 rest 一致的默認值。

isna_idx = pd.isnull(df2['station_xyz__cr.data'])
df2.loc[isna_idx, ['station_xyz__cr.data']] = {'id': '...'}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM