字典有一個單獨的字典，我想在 python 中的 dataframe 中轉換它，以便該表包含具有子列的列

Question

Data=[{'endDate': {'raw': 1585612800, 'fmt': '2020-03-31'},
      'totalRevenue': {'raw': 67985000, 'fmt': '67.98M', 'longFmt': 
       '67,985,000'},
       'costOfRevenue': {'raw': 0, 'fmt': None, 'longFmt': '0'},
       'grossProfit': {'raw': 67985000, 'fmt': '67.98M', 'longFmt': 
        '67,985,000'},
       'sellingGeneralAdministrative': {'raw': 37779000,
        'fmt': '37.78M'}},
     {'endDate': {'raw': 1577750400, 'fmt': '2019-12-31'},
       'totalRevenue': {'raw': 79115000, 'fmt': '79.11M', 'longFmt': 
        '79,115,000'},
       'costOfRevenue': {'raw': 0, 'fmt': None, 'longFmt': '0'},
       'grossProfit': {'raw': 79115000, 'fmt': '79.11M', 'longFmt': 
        '79,115,000'},
       ' sellingGeneralAdministrative': {'raw': 36792000,
        'fmt': '36.79M',
        'longFmt': '36,792,000'}}]
 

   i want Data in this format

 Data =[{endDate:{'fmt':'2020-03-31'},
      totalRevenue:{'fmt':67.98M},
      costofRevenue:{'fmt':None}' and so on

即刪除'raw'和'longfmt'，然后我希望它將dict列表轉換為dataframe。

Answer 1

以下是將多個這樣的字典轉換為 dataframe 的方法：

import pandas as pd

a = {...}
b = {...}

c = [a, b]
f = {'grossProfit':[], 'incomeBeforeTax':[], 'incomeTaxExpense':[]}
for e in c:
    for k in f.keys():
        f[d].append(e[d])

print(pd.DataFrame(f))

Answer 2

pandas實際上並不支持“子列”，正如您所要求的那樣。 但是，它確實支持以{'a': {'b': 'value'}}為您提供列ab = 'value'的方式展平json對象。 執行此操作的官方方法是json_normalize ，並且會像這樣使用

import pandas as pd

income_statement_history = {
    "totalRevenue": {
        "raw": 67985000,
        "fmt": "67.98M",
        "longFmt": "67,985,000"
    },
    "costOfRevenue": {
        "raw": 0,
        "fmt": 'null',
        "longFmt": "0"
    },
    "grossProfit": {
        "raw": 67985000,
        "fmt": "67.98M",
        "longFmt": "67,985,000"
    },
    "totalOperatingExpenses": {
        "raw": 46790000,
        "fmt": "46.79M",
        "longFmt": "46,790,000"
    },
    "operatingIncome": {
        "raw": 21195000,
        "fmt": "21.2M",
        "longFmt": "21,195,000"
    }
}

df = pd.json_normalize(income_statement_history)

打印df會給你

>>> df
   totalRevenue.raw totalRevenue.fmt totalRevenue.longFmt  costOfRevenue.raw costOfRevenue.fmt  ... totalOperatingExpenses.fmt  totalOperatingExpenses.longFmt operatingIncome.raw operatingIncome.fmt  operatingIncome.longFmt     
0          67985000           67.98M           67,985,000                  0              null  ...                     46.79M                      46,790,000            21195000               21.2M               21,195,000     

[1 rows x 15 columns]

您可以繼續動態訪問這些列值

>>> col = 'totalOperatingExpenses'
>>> subcol = 'longFmt'
>>> df[f'{col}.{subcol}']
0    46,790,000
Name: totalOperatingExpenses.longFmt, dtype: object

在這之間做出決定，如@Ann Zen 的回答所建議的pd.DataFrame初始化，或者您一直使用的任何方法，取決於您的確切需要。

您的目標是基於 json 數據的視覺上令人愉悅的列配置嗎？ 給定子列的名稱和基列的名稱，您的目標是訪問子列的清晰方法嗎？ 我能想到的大多數答案僅基於偏好，差異很小。

字典有一個單獨的字典，我想在 python 中的 dataframe 中轉換它，以便該表包含具有子列的列

問題描述

2 個解決方案

解決方案1
0 2020-06-21 19:59:22

解決方案2
0 2020-06-21 20:38:08

字典有一個單獨的字典，我想在 python 中的 dataframe 中轉換它，以便該表包含具有子列的列

問題描述

2 個解決方案

解決方案1 0 2020-06-21 19:59:22

解決方案2 0 2020-06-21 20:38:08

解決方案1
0 2020-06-21 19:59:22

解決方案2
0 2020-06-21 20:38:08