[英]Pandas temporal cumulative sum by group
我有一個數據框,其中為每個 id 記錄了 1 個或多個事件。 對於每個事件,記錄 id、度量 x 和日期。 像這樣的東西:
import pandas as pd
import datetime as dt
import numpy as np
x = range(0, 6)
id = ['a', 'a', 'b', 'a', 'b', 'b']
dates = [dt.datetime(2012, 5, 2),dt.datetime(2012, 4, 2),dt.datetime(2012, 6, 2),
dt.datetime(2012, 7, 30),dt.datetime(2012, 4, 1),dt.datetime(2012, 5, 9)]
df =pd.DataFrame(np.column_stack((id,x,dates)), columns = ['id', 'x', 'dates'])
我希望能夠設置回溯期(即 70 天),並為數據集中的每一行計算該 id 的任何先前事件的 x 的累積總和,並在所需的回溯內(不包括行的 x正在執行計算)。 最終應該看起來像:
id x dates want
0 a 0 2012-05-02 00:00:00 1
1 a 1 2012-04-02 00:00:00 0
2 b 2 2012-06-02 00:00:00 9
3 a 3 2012-07-30 00:00:00 0
4 b 4 2012-04-01 00:00:00 0
5 b 5 2012-05-09 00:00:00 4
好吧,一種方法如下:(1)使用“id”作為分組變量進行分組groupby/apply
。 (2) 在應用中,將組resample
為每日時間序列。 (3) 然后只使用rolling_sum
(和shift,這樣你就不會包括當前行的'x'值)來計算你的70天回顧期的總和。 (4) 將組減少到只有原始觀測值:
In [12]: df = df.sort(['id','dates'])
In [13]: df
Out[13]:
id x dates
1 a 1 2012-04-02
0 a 0 2012-05-02
3 a 3 2012-07-30
4 b 4 2012-04-01
5 b 5 2012-05-09
2 b 2 2012-06-02
您將需要按['id','dates']
排序的數據。 現在我們可以執行groupby/apply
:
In [15]: def past70(g):
g = g.set_index('dates').resample('D','last')
g['want'] = pd.rolling_sum(g['x'],70,0).shift(1)
return g[g.x.notnull()]
In [16]: df = df.groupby('id').apply(past70).drop('id',axis=1)
In [17]: df
Out[17]:
x want
id dates
a 2012-04-02 1 NaN
2012-05-02 0 1
2012-07-30 3 0
b 2012-04-01 4 NaN
2012-05-09 5 4
2012-06-02 2 9
如果您不想要 NaN,那么只需執行以下操作:
In [28]: df.fillna(0)
Out[28]:
x want
id dates
a 2012-04-02 1 0
2012-05-02 0 1
2012-07-30 3 0
b 2012-04-01 4 0
2012-05-09 5 4
2012-06-02 2 9
編輯:如果您想讓回顧窗口成為參數,請執行以下操作:
def past_window(g,win=70):
g = g.set_index('dates').resample('D','last')
g['want'] = pd.rolling_sum(g['x'],win,0).shift(1)
return g[g.x.notnull()]
df = df.groupby('id').apply(past_window,win=10)
print df.fillna(0)
我需要執行類似的操作,所以我查看了一下,並在 Pandas 的食譜中找到了(我熱烈推薦給任何願意了解這個包的所有巨大可能性的人)這個頁面: Pandas:rolling mean by time interval 。 使用最新版本的 Pandas,您可以傳遞一個額外的參數,用於根據類似 date_time 的列計算滾動()函數的窗口。 所以這個例子變得更加簡單:
# First, convert the dates to date time to make sure it's compatible
df['dates'] = pd.to_datetime(df['dates'])
# Then, sort the time series so that it is monotonic
df.sort_values(['id', 'dates'], inplace=True)
# '70d' corresponds to the the time window we are considering
# The 'closed' parameter indicates whether to include the interval bounds
# 'yearfirst' indicates to pandas the format of your time series
df['want'] = df.groupby('id').rolling('70d', on='dates', closed='neither',
yearfirst=True)['x'].sum().to_numpy()
df['want'] = np.where(df['want'].isnull(), 0, df['want']).astype(int)
df.sort_index() # to dispay it in the same order as the example provided
id x dates want
0 a 0 2012-05-02 1
1 a 1 2012-04-02 0
2 b 2 2012-06-02 9
3 a 3 2012-07-30 0
4 b 4 2012-04-01 0
5 b 5 2012-05-09 4
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.