Pandas 相当于 Oracle Lead/Lag 函数

Question

首先，我是熊猫的新手，但我已经爱上了它。 我正在尝试从 Oracle 实现等效的 Lag 函数。

假设你有这个 DataFrame：

Date                   Group      Data
2014-05-14 09:10:00        A         1
2014-05-14 09:20:00        A         2
2014-05-14 09:30:00        A         3
2014-05-14 09:40:00        A         4
2014-05-14 09:50:00        A         5
2014-05-14 10:00:00        B         1
2014-05-14 10:10:00        B         2
2014-05-14 10:20:00        B         3
2014-05-14 10:30:00        B         4

如果这是一个 oracle 数据库，并且我想创建一个按“组”列分组并按日期排序的滞后函数，我可以轻松地使用此函数：

 LAG(Data,1,NULL) OVER (PARTITION BY Group ORDER BY Date ASC) AS Data_lagged

这将导致下表：

Date                   Group     Data    Data lagged
2014-05-14 09:10:00        A        1           Null
2014-05-14 09:20:00        A        2            1
2014-05-14 09:30:00        A        3            2
2014-05-14 09:40:00        A        4            3
2014-05-14 09:50:00        A        5            4
2014-05-14 10:00:00        B        1           Null
2014-05-14 10:10:00        B        2            1
2014-05-14 10:20:00        B        3            2
2014-05-14 10:30:00        B        4            3

在熊猫中，我可以将日期设置为索引并使用 shift 方法：

db["Data_lagged"] = db.Data.shift(1)

唯一的问题是这不按列分组。 即使我将 Date 和 Group 两列设置为索引，我仍然会在滞后列中得到“5”。

有没有办法在 Pandas 中实现等效的 Lead 和 Lag 函数？

Answer 1

您可以执行groupby/apply (shift) 操作：

In [15]: df['Data_lagged'] = df.groupby(['Group'])['Data'].shift(1)

In [16]: df
Out[16]: 
                Date Group  Data  Data_lagged
2014-05-14  09:10:00     A     1          NaN
2014-05-14  09:20:00     A     2            1
2014-05-14  09:30:00     A     3            2
2014-05-14  09:40:00     A     4            3
2014-05-14  09:50:00     A     5            4
2014-05-14  10:00:00     B     1          NaN
2014-05-14  10:10:00     B     2            1
2014-05-14  10:20:00     B     3            2
2014-05-14  10:30:00     B     4            3

[9 rows x 4 columns]

要获得ORDER BY Date ASC效果，必须先对 DataFrame 进行排序：

df['Data_lagged'] = (df.sort_values(by=['Date'], ascending=True)
                       .groupby(['Group'])['Data'].shift(1))

Answer 2

对于 Pandas 中的引导操作，只需要使用 shift(-1) 而不是 1

df['Data_lead'] = df.groupby(['Group'])['Data'].shift(-1)

Pandas 相当于 Oracle Lead/Lag 函数

问题描述

2 个解决方案

解决方案1
81 已采纳 2014-05-14 20:58:21

解决方案2
2 2021-02-18 11:07:43

Pandas 相当于 Oracle Lead/Lag 函数

问题描述

2 个解决方案

解决方案1 81 已采纳 2014-05-14 20:58:21

解决方案2 2 2021-02-18 11:07:43

解决方案1
81 已采纳 2014-05-14 20:58:21

解决方案2
2 2021-02-18 11:07:43