如何为dask数据帧实现`iloc`函数？

Question

我有一个巨大的文件，以hdf5形式存储了大约35GB。 我必须对某些特定列进行某些计算，并希望将这些计算作为新列插入。 我知道我可以直接分配新列为

df['new_column'] = 0(or some other value) 。 但是我有一些计算必须使用先前的行值。 在熊猫中，我们可以使用iloc函数获取前一个索引的值。 但是，熊猫无法处理这么大的文件。 我很多时候都遇到内存错误。

那么，如何实现一些可以使用上一行值并可以快速进行计算的函数呢？ 或者换句话说，如何实现iloc方法的替代方法？ 我知道如何使用df.apply函数。

带有实现的代码将不胜感激。 谢谢。

Answer 1

Dask.dataframe没有实现iloc。

您可能会对rolling感兴趣

df.rolling(window=1).apply(...)