[英]Create column containing the dict of two pandas df columns containing lists
[英]Pandas create a df from dict of dict of lists
我有一個動態填充的數據結構,因此鍵和子鍵的數量未知。 我想將其轉換為Pandas df。 結構看起來像這樣
datastore = {
"user1":{
"time1":[1,2,3,4],
"time2":[5,6,7,8],
"time3":[1,2,3,4] },
"user2":{
"time1":[1,2,3,4],
"time2":[5,6,7,8] }
}
帶有值列表的字典
我想像這樣將其轉換為pandas df
index users times x y z k
0 user1 time1 1 2 3 4
1 user1 time2 5 6 7 8
2 user1 time3 1 2 3 4
3 user2 time1 1 2 3 4
4 user2 time2 5 6 7 8
....
我嘗試了pd.DataFrame(dict),from_dict方法,但是無法正常工作。 任何幫助,將不勝感激。
編輯:對不起語法錯誤,已修復
這是一種方法
datastore = {
"user1":{
"time1":[1,2,3,4],
"time2":[5,6,7,8],
"time3":[1,2,3,4] },
"user2":{
"time1":[1,2,3,4],
"time2":[5,6,7,8]}
}
我們可以在字典中使用pd.DataFrame(),然后使用stack()然后使用reset_index()
df = pd.DataFrame(datastore).stack().reset_index()
print(df)
level_0 level_1 0
0 time1 user1 [1, 2, 3, 4]
1 time1 user2 [1, 2, 3, 4]
2 time2 user1 [5, 6, 7, 8]
3 time2 user2 [5, 6, 7, 8]
4 time3 user1 [1, 2, 3, 4]
現在,應用pd.Series將列表“拆分”為0,然后將其重新連接到level_1和level_2。 重命名某些列,我們完成了
df = df[['level_1', 'level_0']].join(df[0].apply(pd.Series))
df.columns = ['users', 'times', 'x', 'y', 'z', 'k']
print(df)
users times x y z k
0 user1 time1 1 2 3 4
1 user2 time1 1 2 3 4
2 user1 time2 5 6 7 8
3 user2 time2 5 6 7 8
4 user1 time3 1 2 3 4
選項1
pd.DataFrame.from_dict(datastore, 'index').stack() \
.rename_axis(['users', 'times']) \
.apply(pd.Series, index=list('xyzk')).reset_index()
users times x y z k
0 user1 time1 1 2 3 4
1 user1 time2 5 6 7 8
2 user1 time3 1 2 3 4
3 user2 time1 1 2 3 4
4 user2 time2 5 6 7 8
選項2
pd.DataFrame(
[[u, t] + l for u, td in datastore.items() for t, l in td.items()],
columns='users times x y z k'.split()
)
users times x y z k
0 user1 time1 1 2 3 4
1 user1 time2 5 6 7 8
2 user1 time3 1 2 3 4
3 user2 time1 1 2 3 4
4 user2 time2 5 6 7 8
定時
%timeit pd.DataFrame.from_dict(datastore, 'index').stack().rename_axis(['users', 'times']).apply(pd.Series, index=list('xyzk')).reset_index()
%timeit pd.DataFrame([[u, t] + l for u, td in datastore.items() for t, l in td.items()], columns='users timets x y z k'.split())
100 loops, best of 3: 2.72 ms per loop
1000 loops, best of 3: 556 µs per loop
DEBUG
如果您復制並粘貼此代碼,它將運行。 請嘗試一下,並報告它確實已運行。
import pandas as pd
datastore = {
"user1":{
"time1":[1,2,3,4],
"time2":[5,6,7,8],
"time3":[1,2,3,4] },
"user2":{
"time1":[1,2,3,4],
"time2":[5,6,7,8]}
}
pd.DataFrame.from_dict(datastore, 'index').stack() \
.rename_axis(['users', 'times']) \
.apply(pd.Series, index=list('xyzk')).reset_index()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.