[英]Append rows to a dask dataframe using apply function on another dask dataframe
我想使用 dask 运行以下操作。
df1 = pd.DataFrame()
def foo(row):
global df1
df1.append(row)
def main():
global df1
df2.apply(foo , axis = 1)
当我在没有 Dask 的情况下运行以下操作时,它运行得非常好,但是当我将两个数据帧都转换为 dask 时,计算后我的 df2 数据帧中没有任何数据。
df1 = pd.DataFrame()
df1 = from_pandas(df1, npartitions=10)
def foo(row):
global df1
df1.append(row)
def main():
global df1
df2 = from_pandas(df2 , npartitions = 10)
df2.apply(foo , axis = 1, meta = df2)
我不确定,我做错了什么,或者在 dask 中是否有更好的方法,我的主要目标是使用 dask 运行整个代码,因为数据量很大。
.apply
方法的结果应该分配给一个新的dask
DataFrame:
df2 = df2.apply(foo , axis = 1, meta = df2)
但是,在处理大规模数据时,这可能效率不高。 什么更有效将取决于要解决的具体问题。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.