[英]Groupby multiple columns count size and calculate mean of another column in Pandas
[英]PANDAS groupby 2 columns then count and mean
我有一个用户数据框,每次他们进入一个网站时,它看起来像这样:
(如果有 x 行具有相同的星期和日期,则表示用户在该日期的 x 时间进入了站点)。
ID | 星期 | 日期 |
---|---|---|
1个 | 2个 | 20/07/21 |
2个 | 3个 | 23/07/21 |
2个 | 3个 | 23/07/21 |
2个 | 3个 | 26/07/21 |
2个 | 4个 | 30/07/21 |
2个 | 4个 | 30/07/21 |
2个 | 4个 | 30/07/21 |
2个 | 4个 | 21 年 7 月 31 日 |
到目前为止,我已经设法做到了这一点:
ID | 星期 | 日期 | 天数 |
---|---|---|---|
1个 | 2个 | 20/07/21 | 1个 |
2个 | 3个 | 23/07/21 | 2个 |
2个 | 3个 | 26/07/21 | 1个 |
2个 | 4个 | 30/07/21 | 3个 |
2个 | 4个 | 21 年 7 月 31 日 | 1个 |
使用此代码:
df.groupby(['ID','week','date']).agg({'date':['count']})
但我需要计算每个用户每周使用该网站的平均时间,因此每个用户每周都有一行。 因此,我需要的 output 如下所示:
ID | 星期 | 平均天数 |
---|---|---|
1个 | 2个 | 1个 |
2个 | 3个 | 1.5 |
2个 | 4个 | 2个 |
任何想法如何继续?
谢谢!!
使用:
(df.groupby(['ID', 'week', 'date'], as_index=False)['date']
.agg('count')
.groupby(['ID', 'week'], as_index=False)
.agg(**{'mean days number': ('date', 'mean')})
)
Output:
ID week mean days number
0 1 2 1.0
1 2 3 1.5
2 2 4 2.0
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.