Pandas groupby 和多列的加权总和

Question

我已经看到十几个 Pandas groupby 多列问题，但我不知道如何在合理的时间内运行它。 我的目标是对几列进行np.dot ，并根据我的权np.dot每个剩余的列中应用np.dot生成的子集：

# Example data:
weights = np.array([.20, .60, .20])
data = pd.DataFrame([[0, "TX", 10, 55], [0, "TX", 5, 30], [0, "TX", 2, 75], [1, "TX", 4, 30], [1, "TX", 8, 100], [1, "TX", 2, 30]], columns=["sim", "state", "x1", "x2"])

print(data)
   sim state  x1   x2
0    0    TX  10   55
1    0    TX   5   30
2    0    TX   2   75
3    1    TX   4   30
4    1    TX   8  100
5    1    TX   2   30

我无法让np.dot开箱即用，所以我不得不将乘法和求和分解为单独的步骤。 这是我尝试过的，但在我的几百万行数据集上，这需要大约 2 分钟，更不用说非常不可读了：

results = data.groupby(["sim", "state"]).apply(lambda sdf: (sdf[["x1", "x2"]] * weights.reshape((3,1))).sum())

print(results.reset_index())
   sim state   x1    x2
0    0    TX  5.4  44.0
1    1    TX  6.0  72.0

Answer 1

怎么样...

(df.set_index(['sim', 'state'])
   .mul(np.tile(weights, len(df) // len(weights)), axis=0)
   .sum(level=[0, 1]))

            x1    x2
sim state           
0   TX     5.4  44.0
1   TX     6.0  72.0

这是如何运作的，

将索引设置为不应相乘的任何值（本质上是df的主键）
使用mul与权重执行广播乘法
对指数进行分组并对加权值求和。

这是在len(df) % len(weights) == 0的假设下工作的。

Pandas groupby 和多列的加权总和

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-01-10 22:39:23

Pandas groupby 和多列的加权总和

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-01-10 22:39:23

解决方案1
2 已采纳 2020-01-10 22:39:23