基于多列创建滞后特征

Question

我有一个时间序列数据集。 我需要提取滞后特征。 我正在使用下面的代码，但得到了所有 NAN

df.groupby(['week','id1','id2','id3'],as_index=False)['value'].shift(1)

输入

week,id1,id2,id3,value
1,101,123,001,45
1,102,231,004,89
1,203,435,099,65
2,101,123,001,48
2,102,231,004,75
2,203,435,099,90

output

week,id1,id2,id3,value,t-1
1,101,123,001,45,NAN
1,102,231,004,89,NAN
1,203,435,099,65,NAN
2,101,123,001,48,45
2,102,231,004,75,89
2,203,435,099,90,65

Answer 1

你想转移到下周，所以从分组中删除'week' ：

df['t-1'] = df.groupby(['id1','id2','id3'],as_index=False)['value'].shift()
#    week  id1  id2  id3  value   t-1
#0     1  101  123    1     45   NaN
#1     1  102  231    4     89   NaN
#2     1  203  435   99     65   NaN
#3     2  101  123    1     48  45.0
#4     2  102  231    4     75  89.0
#5     2  203  435   99     90  65.0

这是容易错过几周的错误。 在这种情况下，我们可以在更改周后合并，这样可以确保它是前一周，而不管缺少周。

df2 = df.assign(week=df.week+1).rename(columns={'value': 't-1'})
df = df.merge(df2, on=['week', 'id1', 'id2', 'id3'], how='left')

引入和重命名许多列的另一种方法是在合并中使用suffixes参数。 这将重命名右侧 DataFrame 中的所有重叠列（不是键）。

df.merge(df.assign(week=df.week+1),         # Manally lag
         on=['week', 'id1', 'id2', 'id3'], 
         how='left',
         suffixes=['', '_lagged']           # Right df columns -> _lagged
         )
#   week  id1  id2  id3  value  value_lagged
#0     1  101  123    1     45           NaN
#1     1  102  231    4     89           NaN
#2     1  203  435   99     65           NaN
#3     2  101  123    1     48          45.0
#4     2  102  231    4     75          89.0
#5     2  203  435   99     90          65.0

基于多列创建滞后特征

问题描述

1 个解决方案

解决方案1
1 已采纳 2019-10-09 01:23:05

基于多列创建滞后特征

问题描述

1 个解决方案

解决方案1 1 已采纳 2019-10-09 01:23:05

解决方案1
1 已采纳 2019-10-09 01:23:05