繁体   English   中英

如何使用熊猫计算累积加权平均值

[英]How to calculate cumulative weighted average using pandas

我想问你如何在pandas数据框中找到特定列值的累积平均值。 首先,数据如下所示:

公司 日期 审稿人 速度
一种 2021-01-01 一种 5
一种 2021-01-01 1
一种 2021-01-01 C 2
一种 2021-01-02 d 3
一种 2021-01-02 电子 4
一种 2021-01-03 F 3
一种 2021-01-04 G 5
2021-01-01 H 5
2021-01-01 一世 2
2021-01-02 j 3
2021-01-02 4
2021-01-03 一种 3
2021-01-04 5

我要查找的是按日期获取特定公司的平均评级,并添加一列以查找累积平均评级,包括今天的平均评级。
我想把它变成一个像下面这样的数据框。

公司 日期 审稿人 速度 cum_avg_rate
一种 2021-01-01 一种 5 2.667
一种 2021-01-01 1 2.667
一种 2021-01-01 C 2 2.667
一种 2021-01-02 d 3 3
一种 2021-01-02 电子 4 3
一种 2021-01-03 F 3 3
一种 2021-01-04 G 5 3.286
2021-01-01 H 5 3.5
2021-01-01 一世 2 3.5
2021-01-02 j 3 3.5
2021-01-02 4 3.5
2021-01-03 一种 3 3.4
2021-01-04 5 3.667

到目前为止,我尝试过的方法是创建一个新的数据框,使用带有公司和日期的“groupby”方法计算平均分数和评论数量,并使用它来创建每天的累积平均值。
代码如下。

firm_gp=avg_mean_rate.groupby(['firm','date'])['mean']
firm_gp_count=avg_mean_rate.groupby(['firm','date'])['count']
avg_mean_rate['new_avg_grade']=( (firm_gp * firm_gp_count).cumsum())/firm_gp_count.cumsum()

但是问题是在计算每一天的累积平均值的过程中出现了如下错误。
TypeError: unsupported operand type(s) for *: 'SeriesGroupBy' and 'method'

作为第二种方法,我使用 numpy 尝试了以下方法。

def w_cum_avg(avg_mean_rate,mean,count):
    d=avg_mean_rate['mean']
    w= avg_mean_rate['count']
    return(d*w).cumsum() / w.cumsum()
avg_mean_rate.groupby(['firm','date']).apply(w_cum_avg,'mean','count')

但这并不奏效,这是我所期望的。

如果您能教我如何获得结果,我将不胜感激。

先感谢您。

我们可以使用groupby aggregate然后groupby cumsum count每个firm的每日sumcount ,以获得每个firm的每日累计总数。 通过划分并join回 DataFrame 来计算平均值:

g = (
    df.groupby(['firm', 'date'])['rate']
        .agg(['sum', 'count'])
        .groupby(level='firm').cumsum()
)

df = df.join(
    g['sum'].div(g['count']).rename('cum_avg_rate'),
    on=['firm', 'date']  # align index on columns
)

df

   firm        date reviewer  rate  cum_avg_rate
0     A  2021-01-01        a     5      2.666667
1     A  2021-01-01        b     1      2.666667
2     A  2021-01-01        c     2      2.666667
3     A  2021-01-02        d     3      3.000000
4     A  2021-01-02        e     4      3.000000
5     A  2021-01-03        f     3      3.000000
6     A  2021-01-04        g     5      3.285714
7     B  2021-01-01        h     5      3.500000
8     B  2021-01-01        i     2      3.500000
9     B  2021-01-02        j     3      3.500000
10    B  2021-01-02        k     4      3.500000
11    B  2021-01-03        a     3      3.400000
12    B  2021-01-04        b     5      3.666667

设置:

import pandas as pd

df = pd.DataFrame({
    'firm': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'B'],
    'date': ['2021-01-01', '2021-01-01', '2021-01-01', '2021-01-02',
             '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-01',
             '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03',
             '2021-01-04'],
    'reviewer': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'a',
                 'b'],
    'rate': [5, 1, 2, 3, 4, 3, 5, 5, 2, 3, 4, 3, 5]
})

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM