[英]Creating complex nested dictionaries from Pandas DataFrame
我正在嘗試從平坦的Pandas DataFrame實例中找到一種創建(可能是深層次)嵌套字典的通用方法。
假設我有以下DataFrame:
dat = pd.DataFrame({'name' : ['John', 'John', 'John', 'John', 'Henry', 'Henry'],
'age' : [24, 24, 24, 24, 31, 31],
'gender' : ['Male','Male','Male','Male','Male','Male'],
'study' : ['Mathematics', 'Mathematics', 'Mathematics', 'Philosophy', 'Physics', 'Physics'],
'course' : ['Calculus 101', 'Calculus 101', 'Calculus 102', 'Aristotelean Ethics', 'Quantum mechanics', 'Quantum mechanics'],
'test' : ['Exam', 'Essay','Exam','Essay', 'Exam1','Exam2'],
'pass' : [True, True, True, True, True, True],
'grade' : ['A', 'A', 'B', 'A', 'C', 'C']})
dat = dat[['name', 'age', 'gender', 'study', 'course', 'test', 'grade', 'pass']] #re-order columns to better reflect data structure
我想創建一個深度嵌套的字典(或嵌套字典列表),它“尊重”這些數據的底層結構。 也就是說,等級是關於測試的信息,該測試是課程的一部分,該課程是一個人所做的研究的一部分。 此外,年齡和性別是關於同一個人的信息。
一個示例所需的輸出是這樣的:
[{'John': {'age': 24,
'gender': 'Male',
'study': {'Mathematics': {'Calculus 101': {'Exam': {'grade': 'B',
'pass': True}}},
'Philosophy': {'Aristotelean Ethics': {'Essay': {'grade': 'A',
'pass': True}}}}}},
{'Henry': {'age': 31,
'gender': 'Male',
'study': {'Physics': {'Quantum mechanics': {'Exam1': {'Grade': 'C',
'Pass': True},
'Exam2': {'Grade': 'C',
'Pass': True}}}}}}]
(盡管可能有其他類似的方法來構建這樣的數據)。
我嘗試使用groupby,這樣可以很容易,例如,在'test'下嵌套'grade'和'pass',在'course'下嵌套'test',在'study'下嵌套'course',在'study'下'nest' '名稱'。 但是,我不知道如何在'name'下添加'gender'和'age'? 像這樣的東西是我想出的最好的東西:
dic = {}
for ind, row in dat.groupby(['name', 'study', 'course', 'test'])['grade', 'pass']:
#this is ugly and not very generic, but just as an example
if not ind[0] in dic:
dic[ind[0]] = {}
if not ind[1] in dic[ind[0]]:
dic[ind[0]][ind[1]] = {}
if not ind[2] in dic[ind[0]][ind[1]]:
dic[ind[0]][ind[1]][ind[2]] = {}
if not ind[3] in dic[ind[0]][ind[1]][ind[2]]:
dic[ind[0]][ind[1]][ind[2]][ind[3]] = {}
dic[ind[0]][ind[1]][ind[2]][ind[3]]['grade'] = row['grade'].values[0]
dic[ind[0]][ind[1]][ind[2]][ind[3]]['pass'] = row['pass'].values[0]
但在這種情況下,“年齡”和“性別”不會嵌套在“名稱”下。 我似乎無法繞過如何做到這一點......
另一種選擇是設置MultiIndex並進行.to_dict('index')調用。 但話說回來,我不知道如何在一個鍵下嵌套dicts和non-dicts ......
我的問題類似於這個問題: 將pandas DataFrame轉換為嵌套的dict ,但我正在尋找更復雜的嵌套(例如,不僅僅是應該嵌套在所有其他列下的最后一列)。 Stackoverflow上的大多數其他問題都要求相反:從深層嵌套字典創建(可能是MultiIndex)DataFrame。
編輯:問題也類似於這個問題: Pandas將Dataframe轉換為嵌套Json ,但在該問題中,只有最后一列(例如,列n )應該嵌套在所有其他列( n-1 , n-2等;完全遞歸嵌套)。 在我的問題中,列n和n-1應該嵌套在n-2下 ,但是列n-2和n-3應該嵌套在n-4下 (因此,重要的是, n-2 不嵌套在n-3下但是根據n-4 )。 Mohammad Yusuf Ghazi提供的MultiIndex部分解決方案很好地描繪了這個結構。
不是很簡潔,但它是我現在能得到的最好的:
>>> def rollup1(x):
... return x.set_index('test')[['grade', 'pass']].to_dict(orient='index')
>>> def rollup2(x):
... return x.groupby('course').apply(rollup1).to_dict()
>>> def rollup3(x):
... return x.groupby('study').apply(rollup2).to_dict()
>>> df = dat.groupby(['name','age','gender']).apply(rollup3)
>>> df.name = 'study'
>>> res = df.reset_index(level=[1,2]).to_dict(orient='index')
>>> pprint.pprint(res)
{'Henry': {'age': 31L,
'gender': 'Male',
'study': {'Physics': {'Quantum mechanics': {'Exam1': {'grade': 'C',
'pass': True},
'Exam2': {'grade': 'C',
'pass': True}}}}},
'John': {'age': 24L,
'gender': 'Male',
'study': {'Mathematics': {'Calculus 101': {'Essay': {'grade': 'A',
'pass': True},
'Exam': {'grade': 'A',
'pass': True}},
'Calculus 102': {'Exam': {'grade': 'B',
'pass': True}}},
'Philosophy': {'Aristotelean Ethics': {'Essay': {'grade': 'A',
'pass': True}}}}}}
我們的想法是將數據匯總到字典,同時將數據分組以獲得“研究”專欄
更新我試圖創建更通用的解決方案,所以它也適用於像這樣的問題:
def rollup_to_dict_core(x, values, columns, d_columns=None):
if d_columns is None:
d_columns = []
if len(columns) == 1:
if len(values) == 1:
return x.set_index(columns)[values[0]].to_dict()
else:
return x.set_index(columns)[values].to_dict(orient='index')
else:
res = x.groupby([columns[0]] + d_columns).apply(lambda y: rollup_to_dict_core(y, values, columns[1:]))
if len(d_columns) == 0:
return res.to_dict()
else:
res.name = columns[1]
res = res.reset_index(level=range(1, len(d_columns) + 1))
return res.to_dict(orient='index')
def rollup_to_dict(x, values, d_columns=None):
if d_columns is None:
d_columns = []
columns = [c for c in x.columns if c not in values and c not in d_columns]
return rollup_to_dict_core(x, values, columns, d_columns)
>>> pprint(rollup_to_dict(dat, ['pass', 'grade'], ['age','gender']))
{'Henry': {'age': 31L,
'gender': 'Male',
'study': {'Physics': {'Quantum mechanics': {'Exam1': {'grade': 'C',
'pass': True},
'Exam2': {'grade': 'C',
'pass': True}}}}},
'John': {'age': 24L,
'gender': 'Male',
'study': {'Mathematics': {'Calculus 101': {'Essay': {'grade': 'A',
'pass': True},
'Exam': {'grade': 'A',
'pass': True}},
'Calculus 102': {'Exam': {'grade': 'B',
'pass': True}}},
'Philosophy': {'Aristotelean Ethics': {'Essay': {'grade': 'A',
'pass': True}}}}}}
這是部分答案。 我不知道如何將索引轉換為json。
df = pd.DataFrame({'name' : ['John', 'John', 'John', 'John', 'Henry', 'Henry'],
'age' : [24, 24, 24, 24, 31, 31],
'gender' : ['Male','Male','Male','Male','Male','Male'],
'study' : ['Mathematics', 'Mathematics', 'Mathematics', 'Philosophy', 'Physics', 'Physics'],
'course' : ['Calculus 101', 'Calculus 101', 'Calculus 102', 'Aristotelean Ethics', 'Quantum mechanics', 'Quantum mechanics'],
'test' : ['Exam', 'Essay','Exam','Essay', 'Exam1','Exam2'],
'pass' : [True, True, True, True, True, True],
'grade' : ['A', 'A', 'B', 'A', 'C', 'C']})
df.set_index(keys=['name','age','gender', 'study','course','test','grade','pass'], inplace=True)
df
輸出:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.