根據 Pandas 中的多索引求和選擇行

Question

import pandas as pd
import numpy as np

np.random.seed(365)
rows = 100
data = {'Month': np.random.choice(['2014-01', '2014-02', '2014-03', '2014-04'], size=rows),
        'Code': np.random.choice(['A', 'B', 'C'], size=rows),
        'ColA': np.random.randint(5, 125, size=rows),
        'ColB': np.random.randint(0, 51, size=rows),}
df = pd.DataFrame(data)

df = df[((~((df.Code=='A')&(df.Month=='2014-04')))&(~((df.Code=='C')&(df.Month=='2014-03'))))]
dfg = df.groupby(['Code', 'Month']).sum()

上面給出了我的 dataframe。我只想 select 那些總和（ColA）超過 1000 的條目，當這個總和在級別 [0] 上執行時

dfg.ColA.sum(level=[0])

dfg[dfg.ColA.sum(level=[0])>1000]

以上一個拋出錯誤？ 預計 output 是：

        ColA  ColB
Code Month              
B    2014-01   477   300
     2014-02   591   167
     2014-03   522   192
     2014-04   367   169
C    2014-01   412   180
     2014-02   275   205
     2014-04   901   309

Answer 1

您需要使用groupby + transform在level=0索引中廣播總和值

dfg[dfg.groupby(level=0)['ColA'].transform('sum').gt(1000)]

              ColA  ColB
Code Month              
B    2014-01   477   300
     2014-02   591   167
     2014-03   522   192
     2014-04   367   169
C    2014-01   412   180
     2014-02   275   205
     2014-04   901   309

Answer 2

另一種方法做同樣的事情：

groups = [g for _,g in df.groupby('Code') if g.ColA.sum()>1000]
pd.concat(groups).groupby(['Code', 'Month']).sum()
'''
              ColA  ColB
Code Month              
B    2014-01   477   300
     2014-02   591   167
     2014-03   522   192
     2014-04   367   169
C    2014-01   412   180
     2014-02   275   205
     2014-04   901   309

根據 Pandas 中的多索引求和選擇行

問題描述

2 個解決方案

解決方案1
1 2022-03-17 17:49:04

解決方案2
0 已采納 2022-03-17 20:08:39

根據 Pandas 中的多索引求和選擇行

問題描述

2 個解決方案

解決方案1 1 2022-03-17 17:49:04

解決方案2 0 已采納 2022-03-17 20:08:39

解決方案1
1 2022-03-17 17:49:04

解決方案2
0 已采納 2022-03-17 20:08:39