使用 group-by 计算 Pandas 数据帧上的累积移动平均值

Question

我可以解决这个问题，但不能以 Python 的方式。 给定以下 dataframe：

   time  rssi  key1  key2  CMA
0  0.021 -71   P     A     NaN
1  0.022 -60   Q     A     NaN
2  0.025 -56   P     B     NaN
3  0.12  -70   Q     B     NaN
4  0.167 -65   P     A     NaN
5  0.210 -55   P     B     NaN
6  0.211 -74   Q     A     NaN
7  0.213 -62   Q     B     NaN
...

逐行计算RSSI的累积移动平均值（CMA），将值放在RSSI平均值列中。 迭代增加的时间，但按key1 ， key2分组。 这相当于说要计算四个 CMA： (P,A) , (P,B) , (Q,A) , (Q,B) 。 最后，计算的 CMA 应放入 CMA 列。

注1 ：我知道RSSI平均值不是用这个公式计算的，我不在乎。

注 2 ：CMA 公式为avg(n) = (avg(n-1) * (n-1) + value(n))/n

示例 1：

定义groupby()策略。

   time  rssi  key1  key2  CMA
0  0.021 -71   P     A     NaN <<-- first value can stay NaN or be default to rssi (i.e. -71)
4  0.167 -65   P     A     -68
...

示例 2：

所需 output

   time  rssi  key1  key2  CMA
0  0.021 -71   P     A     NaN
1  0.022 -60   Q     A     NaN
2  0.025 -56   P     B     NaN
3  0.12  -70   Q     B     NaN
4  0.167 -65   P     A     -68
5  0.210 -55   P     B     -55.5
6  0.211 -74   Q     A     -67
7  0.213 -62   Q     B     -66
...

到目前为止，这是我能想到的

import pandas as pd
import numpy as np
df = pd.DataFrame()
df['time'] = [0.021,0.022,0.025,0.12,0.167,0.210,0.211,0.213]
df['rssi'] = [-71,-60,-56,-70,-65,-55,-74,-62]
df['key1'] = ['P','Q','P','Q','P','P','Q','Q']
df['key2'] = ['A','A','B','B','A','B','A','B']
df["CMA"] = np.nan

for key, grp in df.groupby(['key1', 'key2']):
    i = 0
    old_index = 0
    for index, row in grp.iterrows():
        if i == 0:
            # allowed alternative
            df.at[index,'CMA'] = grp.at[index,'rssi']
            old_index = index
        else:
            df.at[index,'CMA'] = ((df.at[old_index,'CMA'] * i) + df.at[index,'rssi']) / (i+1)
            old_index = index
        i += 1

print df

工作，但它是丑陋的。 必须有一种不那么痛苦的方式来以更蟒蛇的方式实现同样的目标。 如果不显式设置该列的每个单元格值，如何改进这一点？

Answer 1

您可以使用reset_index执行groupby().expanding().mean() ：

df['CMA'] = (df.groupby(['key1','key2'], 
                        as_index=False)['rssi']
               .expanding(min_periods=2).mean()
               .reset_index(level=0, drop=True)
            )

Output：

    time  rssi key1 key2   CMA
0  0.021   -71    P    A   NaN
1  0.022   -60    Q    A   NaN
2  0.025   -56    P    B   NaN
3  0.120   -70    Q    B   NaN
4  0.167   -65    P    A -68.0
5  0.210   -55    P    B -55.5
6  0.211   -74    Q    A -67.0
7  0.213   -62    Q    B -66.0

使用 group-by 计算 Pandas 数据帧上的累积移动平均值

问题描述

1 个解决方案

解决方案1
1 已采纳 2019-11-22 14:16:43

使用 group-by 计算 Pandas 数据帧上的累积移动平均值

问题描述

1 个解决方案

解决方案1 1 已采纳 2019-11-22 14:16:43

解决方案1
1 已采纳 2019-11-22 14:16:43