[英]pandas count values for last 7 days from each date
有兩個Dataframe。 首先是這樣的:
print df1
id date month is_buy
0 17 2015-01-16 2015-01 1
1 17 2015-01-26 2015-01 1
2 17 2015-01-27 2015-01 1
3 17 2015-02-11 2015-02 1
4 17 2015-03-14 2015-03 1
5 18 2015-01-28 2015-01 1
6 18 2015-02-12 2015-02 1
7 18 2015-02-25 2015-02 1
8 18 2015-03-04 2015-03 1
在第二個數據框中,從第一個數據框開始按月匯總數據:
df2 = df1[df1['is_buy'] == 1].groupby(['id', 'month']).agg({'is_buy': np.sum})
print df2
id month buys
0 17 2015-01 3
1 17 2015-02 1
2 17 2015-03 1
3 18 2015-01 1
4 18 2015-02 2
5 18 2015-03 1
我正在嘗試從每個df1 ['month']的第一天起最后7天獲得名為'last_week_buys'的新df2列,其中包含聚合購買。 換句話說,我想得到這個:
id month buys last_week_buys
0 17 2015-01 3 NaN
1 17 2015-02 1 2
2 17 2015-03 1 0
3 18 2015-01 1 NaN
4 18 2015-02 2 1
5 18 2015-03 1 1
有沒有想法獲得這個專欄?
這可以通過一些日期操作魔術和分組來完成:
# datetimeindex makes convenient manipulations
date = pd.DatetimeIndex(df1['date'])
# compute df2: totals by month
df1['month'] = date.to_period('M')
df2 = df1[df1['is_buy'] == 1].groupby(['id', 'month']).sum()
# compute df3: totals by last seven days
from datetime import timedelta
is_last_seven = date.to_period('M') != (date + timedelta(days=7)).to_period('M')
df3 = df1[(df1['is_buy'] == 1) & is_last_seven].groupby(['id', df1.month + 1]).sum()
# join the results
result = df2.join(df3, rsuffix='_last_seven')
結果如下:
>>> print(result)
is_buy is_buy_last_seven
id month
17 2015-01 3 NaN
2015-02 1 2
2015-03 1 NaN
18 2015-01 1 NaN
2015-02 2 1
2015-03 1 1
然后,您可以根據需要填充NaN
值。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.