[英]Convert list of list of dicts to dataframe
我有大的json數據被讀入python數據框,並每行創建一個字典列表。 我需要將其轉換為其他格式的數據。
數據格式如下:
{
"data": [{
"item": [{
"value": 0,
"type": "a"
},
{
"value": 0,
"type": "b"
},
{
"value": 70,
"type": "c"
}
],
"timestamp": "2019-01-12T04:52:06.669Z"
},
{
"item": [{
"value": 30,
"type": "a"
},
{
"value": 0,
"type": "b"
}
],
"timestamp": "2019-01-12T04:53:06.669z"
}
]
}
將數據轉換為以下形式的數據框的最有效方法是:
時間戳----------------------------- a ------- b ------ c
2019-01-12T04:52:06.669Z ------ 0 ------- 0 ------ 70
2019-01-12T04:53:06.669Z ------ 30 ------ 0 ------ 0
到目前為止,我已經設法使用for循環來做到這一點,但是它非常低效且緩慢。 到目前為止,我所擁有的是這個。
with open('try.json') as f:
data = json.load(f)
df_data = pandas.DataFrame(data['data'])
df_formatted = pandas.DataFrame(columns=['a','b','c'])
for d, timestamp in zip(df_data['item'], df_data['timestamp']):
row = dict()
for entry in d:
category = entry['type']
value = entry['value']
row[category] = value
row['timestamp'] = timestamp
df_formatted = df_formatted.append(row, ignore_index=True)
df = df_formatted.fillna(0)
列表中的項目數通常為數千個。有關如何有效執行此操作的任何指針或示例?
您可以通過遍歷對象來解壓縮嵌套的json對象。 嘗試
import pandas as pd
a=[
{
"item": [
{
"value": 0,
"type": "a"
},
{
"value": 0,
"type": "b"
},
{
"value": 70,
"type": "c"
},
],
"timestamp": "2019-01-12T04:52:06.669Z"
},
{
"item": [
{
"value": 30,
"type": "a"
},
{
"value": 0,
"type": "b"
}
],
"timestamp": "2019-01-12T04:53:06.669z"
}
]
cols = ['value', 'type', 'timestamp']
rows = []
for data in a:
data_row = data['item']
timestamp = data['timestamp']
for row in data_row:
row['timestamp']=timestamp
rows.append(row)
df = pd.DataFrame(rows)
df =df.pivot_table(index='timestamp',columns=['type'],values=['value']).reset_index()
df.columns=['timestamp','a','b','c']
如果您正在尋找一個緊湊的解決方案,請使用json_normalize
from pandas.io.json import json_normalize
df =pd.DataFrame()
for i in range(len(a)):
df =pd.concat([df,json_normalize(a[i]['item'])])
df =df.pivot_table(index='timestamp',columns=['type'],values=['value']).reset_index()
df.columns=['timestamp','a','b','c']
最終輸出
timestamp a b c
2019-01-12T04:52:06.669Z 0.0 0.0 70.0
2019-01-12T04:53:06.669z 30.0 0.0 NaN
您可以從json提取字典列表,然后將其輸入數據框。 代碼可以是:
df = pd.DataFrame([dict([('timestamp', d['timestamp']), ('a', 0),
('b', 0), ('c', 0)]
+ [(item['type'], item['value'])
for item in d['item']])for d in data['data']],
columns=['timestamp', 'a', 'b', 'c'])
print(df)
預期的輸出:
timestamp a b c
0 2019-01-12T04:52:06.669Z 0 0 70
1 2019-01-12T04:53:06.669z 30 0 0
這里的技巧是首先構建一個具有默認值的對列表,然后在根據其構建字典之前,使用實際值對其進行擴展。 保留最后看到的值后,您實際上將構建一個包含所有相關值的字典。
僅存在columns參數,以確保預期的列順序。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.