Python Pandas 計算事件發生之間的時間增量

Question

我有一個 Pandas (0.14.1) 數據框，它有一個datetime和一個event列，如下所示：

import pandas as pd
from datetime import datetime
from datetime import timedelta
def perdelta(start, end, delta):
   curr = start
   while curr < end:
     yield curr;  
     curr += delta;
events = [np.nan] * 20; events[5]=20; events[12]=3; events[15]=10;
n = len(events)
signal = [i/10.0 for i in range(n)] + np.random.randn(n)
df = pd.DataFrame( { 'level1': signal,
                     'event' : events, 
                     'datetime': [r for r in perdelta(datetime.now(),  datetime.now() + timedelta(minutes=10) , timedelta(seconds=30))]}, 
                      index=range(n))

df.head(7)
                    datetime  event    level1
0 2016-07-14 10:44:47.035000    NaN  0.158594
1 2016-07-14 10:45:17.035000    NaN  0.282749
2 2016-07-14 10:45:47.035000    NaN  0.448012
3 2016-07-14 10:46:17.035000    NaN  0.590702
4 2016-07-14 10:46:47.035000    NaN -0.346073
5 2016-07-14 10:47:17.035000     20  0.072986
6 2016-07-14 10:47:47.035000    NaN  1.493900

我想包含一個t_since_last_event列，用於計算自上次事件發生以來每個時間步的增量時間。 生成的 df 應如下所示：

df
                     datetime  event    level1  t_since_last_event
0  2016-07-14 10:44:47.035000    NaN  0.158594                  0
1  2016-07-14 10:45:17.035000    NaN  0.282749                 30
2  2016-07-14 10:45:47.035000    NaN  0.448012                 60
3  2016-07-14 10:46:17.035000    NaN  0.590702                 90
4  2016-07-14 10:46:47.035000    NaN -0.346073                120
5  2016-07-14 10:47:17.035000     20  0.072986                  0
6  2016-07-14 10:47:47.035000    NaN  1.493900                 30
7  2016-07-14 10:48:17.035000    NaN -0.143081                 60
8  2016-07-14 10:48:47.035000    NaN  0.173715                 90
9  2016-07-14 10:49:17.035000    NaN  1.232040                120
10 2016-07-14 10:49:47.035000    NaN  3.497438                150
11 2016-07-14 10:50:17.035000    NaN  0.956582                180
12 2016-07-14 10:50:47.035000      3  2.976383                  0
13 2016-07-14 10:51:17.035000    NaN  0.599698                 30
14 2016-07-14 10:51:47.035000    NaN  2.538005                 60
15 2016-07-14 10:52:17.035000     10  1.362104                  0
16 2016-07-14 10:52:47.035000    NaN  2.224680                 30
17 2016-07-14 10:53:17.035000    NaN  3.221037                 60
18 2016-07-14 10:53:47.035000    NaN  1.869479                 90
19 2016-07-14 10:54:17.035000    NaN  1.447430                120

在 Pandas 中是否有一種聰明的方法來做到這一點？ 它涉及水平分組（按事件發生）和垂直計數，因此解決方案對我來說不太明顯。 我在下面發布了我的傳統解決方案。

Answer 1

矢量化在這里應該很簡單：

添加另一列將保存上次事件時間
如果event不是 NaN，則在此列中設置事件時間，否則為 NaN
使用方法ffill填充 NaN 值
從datetime列中減去。

這應該適用於熊貓 0.14.1：

mask = df['event'].notnull()
df['last_event_time'] = np.NaN
df.loc[mask, 'last_event_time'] = df.loc[mask, 'datetime']
df['last_event_time'] = df['last_event_time'].fillna(method='ffill')
df['t_since_last_event'] = df['datetime'] - df['last_event_time']

您可能還希望在開始時將event的第一個元素設置為零； 或者， mask[0] = True 。

Answer 2

這是我無趣的解決方案。 我懷疑應該有一個更快的 Pandas 解決方案。 垂直和水平依賴的存在使得使用apply()或groupby()等更難處理。

last_trade_time = df.iloc[0]['datetime']
t=[np.nan] * len(df)
for i, row in df.iterrows():
    if np.isnan(row['event']):
        t[i] = row['datetime'] - last_trade_time
    else:
        t[i] = 0
        last_trade_time = row['datetime']
df['t_since_last_event'] = t

Python Pandas 計算事件發生之間的時間增量

問題描述

2 個解決方案

解決方案1
2 已采納 2016-07-18 01:42:25

解決方案2
1 2016-07-14 13:22:05

Python Pandas 計算事件發生之間的時間增量

問題描述

2 個解決方案

解決方案1 2 已采納 2016-07-18 01:42:25

解決方案2 1 2016-07-14 13:22:05

解決方案1
2 已采納 2016-07-18 01:42:25

解決方案2
1 2016-07-14 13:22:05