熊貓根據列表的字典創建df

Question

我有一個動態填充的數據結構，因此鍵和子鍵的數量未知。 我想將其轉換為Pandas df。 結構看起來像這樣

    datastore = {
    "user1":{
        "time1":[1,2,3,4], 
        "time2":[5,6,7,8], 
        "time3":[1,2,3,4] },
    "user2":{ 
        "time1":[1,2,3,4], 
        "time2":[5,6,7,8] }
}

帶有值列表的字典

我想像這樣將其轉換為pandas df

index users times x y z k
0     user1 time1 1 2 3 4
1     user1 time2 5 6 7 8
2     user1 time3 1 2 3 4
3     user2 time1 1 2 3 4
4     user2 time2 5 6 7 8 
....

我嘗試了pd.DataFrame（dict），from_dict方法，但是無法正常工作。 任何幫助，將不勝感激。

編輯：對不起語法錯誤，已修復

Answer 1

這是一種方法

datastore = {
"user1":{
    "time1":[1,2,3,4], 
    "time2":[5,6,7,8], 
    "time3":[1,2,3,4] },
"user2":{ 
    "time1":[1,2,3,4], 
    "time2":[5,6,7,8]}
}

我們可以在字典中使用pd.DataFrame（），然后使用stack（）然后使用reset_index（）

df = pd.DataFrame(datastore).stack().reset_index()
print(df)
  level_0 level_1             0
0   time1   user1  [1, 2, 3, 4]
1   time1   user2  [1, 2, 3, 4]
2   time2   user1  [5, 6, 7, 8]
3   time2   user2  [5, 6, 7, 8]
4   time3   user1  [1, 2, 3, 4]

現在，應用pd.Series將列表“拆分”為0，然后將其重新連接到level_1和level_2。 重命名某些列，我們完成了

df = df[['level_1', 'level_0']].join(df[0].apply(pd.Series))
df.columns = ['users', 'times', 'x', 'y', 'z', 'k']
print(df)
   users  times  x  y  z  k
0  user1  time1  1  2  3  4
1  user2  time1  1  2  3  4
2  user1  time2  5  6  7  8
3  user2  time2  5  6  7  8
4  user1  time3  1  2  3  4

Answer 2

選項1

pd.DataFrame.from_dict(datastore, 'index').stack() \
    .rename_axis(['users', 'times']) \
    .apply(pd.Series, index=list('xyzk')).reset_index()

   users  times  x  y  z  k
0  user1  time1  1  2  3  4
1  user1  time2  5  6  7  8
2  user1  time3  1  2  3  4
3  user2  time1  1  2  3  4
4  user2  time2  5  6  7  8

選項2

pd.DataFrame(
    [[u, t] + l for u, td in datastore.items() for t, l in td.items()],
    columns='users times x y z k'.split()
)

   users  times  x  y  z  k
0  user1  time1  1  2  3  4
1  user1  time2  5  6  7  8
2  user1  time3  1  2  3  4
3  user2  time1  1  2  3  4
4  user2  time2  5  6  7  8

定時

%timeit pd.DataFrame.from_dict(datastore, 'index').stack().rename_axis(['users', 'times']).apply(pd.Series, index=list('xyzk')).reset_index()
%timeit pd.DataFrame([[u, t] + l for u, td in datastore.items() for t, l in td.items()], columns='users timets x y z k'.split())

100 loops, best of 3: 2.72 ms per loop
1000 loops, best of 3: 556 µs per loop

DEBUG
如果您復制並粘貼此代碼，它將運行。 請嘗試一下，並報告它確實已運行。

import pandas as pd

datastore = {
    "user1":{
        "time1":[1,2,3,4], 
        "time2":[5,6,7,8], 
        "time3":[1,2,3,4] },
    "user2":{ 
        "time1":[1,2,3,4], 
        "time2":[5,6,7,8]}
}

pd.DataFrame.from_dict(datastore, 'index').stack() \
    .rename_axis(['users', 'times']) \
    .apply(pd.Series, index=list('xyzk')).reset_index()

熊貓根據列表的字典創建df

問題描述

2 個解決方案

解決方案1
2 已采納 2017-07-24 02:33:24

解決方案2
2 2017-07-24 05:06:35

熊貓根據列表的字典創建df

問題描述

2 個解決方案

解決方案1 2 已采納 2017-07-24 02:33:24

解決方案2 2 2017-07-24 05:06:35

解決方案1
2 已采納 2017-07-24 02:33:24

解決方案2
2 2017-07-24 05:06:35