GroupBy操作使用整个数据框对值进行分组

Question

我有2个像这样的数据帧......

np.random.seed(0)
a = pd.DataFrame(np.random.randn(20,3))
b = pd.DataFrame(np.random.randint(1,5,size=(20,3)))

我想找到值的平均值a对4组b 。

这个...

a[b==1].sum().sum() / a[b==1].count().sum()

...适用于一次做一组，但我想知道是否有人能想到更清洁的方法。

我的预期结果是

1   -0.088715
2   -0.340043
3   -0.045596
4    0.582136
dtype: float64

谢谢。

Answer 1

你可以stack然后groupby两个Series

a.stack().groupby(b.stack()).mean()

Answer 2

如果你想要一个快速的numpy解决方案，请使用np.unique和np.bincount ：

c, d = (a_.to_numpy().ravel() for a_ in [a, b]) 
u, i, cnt = np.unique(d, return_inverse=True, return_counts=True)

np.bincount(i, c) / cnt
# array([-0.0887145 , -0.34004319, -0.04559595,  0.58213553])

要构建系列，请使用

pd.Series(np.bincount(i, c) / cnt, index=u)

1   -0.088715
2   -0.340043
3   -0.045596
4    0.582136
dtype: float64

为了比较， stack返回，

a.stack().groupby(b.stack()).mean()

1   -0.088715
2   -0.340043
3   -0.045596
4    0.582136
dtype: float64

%timeit a.stack().groupby(b.stack()).mean()
%%timeit
c, d = (a_.to_numpy().ravel() for a_ in [a, b]) 
u, i, cnt = np.unique(d, return_inverse=True, return_counts=True)
np.bincount(i, c) / cnt

5.16 ms ± 305 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
113 µs ± 1.92 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

GroupBy操作使用整个数据框对值进行分组

问题描述

2 个解决方案

解决方案1
11 已采纳 2019-06-06 15:05:54

解决方案2
6 2019-06-06 15:13:14

GroupBy操作使用整个数据框对值进行分组

问题描述

2 个解决方案

解决方案1 11 已采纳 2019-06-06 15:05:54

解决方案2 6 2019-06-06 15:13:14

解决方案1
11 已采纳 2019-06-06 15:05:54

解决方案2
6 2019-06-06 15:13:14