避免通过pandas数据帧循环以生成要素

Question

我正在研究一些从数据框生成功能的代码，并将这些功能作为列添加到数据框中。

问题是我正在使用时间序列，因此对于任何给定的元组，我需要（比如说）前面的元组中的5个为该元组生成相应的特征。

lookback_period = 5
df['feature1'] = np.zeros(len(df)) # preallocate

for index, row in df.iterrows():
    if index < lookback_period:
        continue
    slice = df[index - lookback_period:index] 
    some_int = SomeFxn(slice)
    row['feature1'] = some_int

有没有办法执行此代码而不显式循环每一行然后切片？

一种方法是使用df['column_name'].shift()创建几个滞后列，这样所有必要的信息都包含在每一行中，但由于数据集很大（数百万行），这很快就会导致我的计算机内存难以处理。

Answer 1

我没有足够的声誉来发表评论，所以我会在这里发布。

你不能使用申请你的数据框，例如

df ['feature1'] = df.apply（someRowFunction，axis = 1）

someRowFunction将接受整行，您可以执行任何基于行的切片和逻辑。

- - 更新 - -

由于我们没有太多关于数据框和所需/预期输出的信息，我只是根据评论中的信息得出答案

让我们定义一个函数，该函数将采用DataFrame切片（基于当前行索引和回溯）和行，并将返回切片的第一列和当前行的值之和。

def someRowFunction (slice, row):
    if slice.shape[0] == 0:
        return 0
    return slice[slice.columns[0]].sum() + row.b

d={'a':[1,2,3,4,5,6,7,8,9,0],'b':[0,9,8,7,6,5,4,3,2,1]}
df=pd.DataFrame(data=d)
lookback = 5
df['c'] = df.apply(lambda current_row: someRowFunction(df[current_row.name -lookback:current_row.name],current_row),axis=1)

我们可以使用其name属性从apply获取行索引，因此我们可以检索所需的切片。 以上将导致以下结果

print(df)
   a  b   c
0  1  0   0
1  2  9   0
2  3  8   0
3  4  7   0
4  5  6   0
5  6  5  20
6  7  4  24
7  8  3  28
8  9  2  32
9  0  1  36

避免通过pandas数据帧循环以生成要素

问题描述

1 个解决方案

解决方案1
1 2017-12-22 19:05:14

避免通过pandas数据帧循环以生成要素

问题描述

1 个解决方案

解决方案1 1 2017-12-22 19:05:14

解决方案1
1 2017-12-22 19:05:14