在groupby中按日期時間過濾的有效方法

Question

鑒於由DataFrame生成的DataFrame ：

import numpy as np
import pandas as pd
from datetime import timedelta

np.random.seed(0)
rng = pd.date_range('2015-02-24', periods=14, freq='9H')
ids = [1]*5 + [2]*2 + [3]*7
df = pd.DataFrame({'id': ids, 'time_entered': rng, 'val': np.random.randn(len(rng))})

df ：

    id  time_entered        val
0   1   2015-02-24 00:00:00 1.764052
1   1   2015-02-24 09:00:00 0.400157
2   1   2015-02-24 18:00:00 0.978738
3   1   2015-02-25 03:00:00 2.240893
4   1   2015-02-25 12:00:00 1.867558
5   2   2015-02-25 21:00:00 -0.977278
6   2   2015-02-26 06:00:00 0.950088
7   3   2015-02-26 15:00:00 -0.151357
8   3   2015-02-27 00:00:00 -0.103219
9   3   2015-02-27 09:00:00 0.410599
10  3   2015-02-27 18:00:00 0.144044
11  3   2015-02-28 03:00:00 1.454274
12  3   2015-02-28 12:00:00 0.761038
13  3   2015-02-28 21:00:00 0.121675

對於每個id ，我需要從最新的time_entered刪除超過 24 小時（1 天）的time_entered ，對於該id 。 我目前的解決方案：

def custom_transform(x):
    datetime_from = x["time_entered"].max() - timedelta(days=1)
    x = x[x["time_entered"] > datetime_from]
    return x

df.groupby("id").apply(lambda x: custom_transform(x)).reset_index(drop=True)

它給出了正確的、預期的輸出：

    id  time_entered        val
0   1   2015-02-24 18:00:00 0.978738
1   1   2015-02-25 03:00:00 2.240893
2   1   2015-02-25 12:00:00 1.867558
3   2   2015-02-25 21:00:00 -0.977278
4   2   2015-02-26 06:00:00 0.950088
5   3   2015-02-28 03:00:00 1.454274
6   3   2015-02-28 12:00:00 0.761038
7   3   2015-02-28 21:00:00 0.121675

但是，我的真實數據是幾千萬行，還有幾十萬個唯一ID，因此，這個解決方案是不可行的（需要很長時間）。

有沒有更有效的方法來過濾數據？ 我欣賞所有的想法！

Answer 1

一般來說，避免groupby().apply()因為它沒有跨組向量化，更不用說如果你像你的情況一樣返回新的數據幀時內存分配的開銷。

如何使用groupby().transform找到時間閾值，然后對整個數據使用布爾索引：

time_max_by_id = df.groupby('id')['time_entered'].transform('max') - pd.Timedelta('1D')
df[df['time_entered'] > time_max_by_id]

輸出：

    id        time_entered       val
2    1 2015-02-24 18:00:00  0.978738
3    1 2015-02-25 03:00:00  2.240893
4    1 2015-02-25 12:00:00  1.867558
5    2 2015-02-25 21:00:00 -0.977278
6    2 2015-02-26 06:00:00  0.950088
11   3 2015-02-28 03:00:00  1.454274
12   3 2015-02-28 12:00:00  0.761038
13   3 2015-02-28 21:00:00  0.121675

Answer 2

df.groupby('id').apply(lambda x : x[(x['time_entered'].max()-x['time_entered'])<pd.Timedelta('1D')]).reset_index(drop=True)
Out[322]: 
   id        time_entered       val
0   1 2015-02-24 18:00:00  0.978738
1   1 2015-02-25 03:00:00  2.240893
2   1 2015-02-25 12:00:00  1.867558
3   2 2015-02-25 21:00:00 -0.977278
4   2 2015-02-26 06:00:00  0.950088
5   3 2015-02-28 03:00:00  1.454274
6   3 2015-02-28 12:00:00  0.761038
7   3 2015-02-28 21:00:00  0.121675

在groupby中按日期時間過濾的有效方法

問題描述

2 個解決方案

解決方案1
4 已采納 2020-10-22 14:07:19

解決方案2
0 2020-10-22 14:14:21

在groupby中按日期時間過濾的有效方法

問題描述

2 個解決方案

解決方案1 4 已采納 2020-10-22 14:07:19

解決方案2 0 2020-10-22 14:14:21

解決方案1
4 已采納 2020-10-22 14:07:19

解決方案2
0 2020-10-22 14:14:21