繁体   English   中英

使用Dask按部分高效读取大csv文件

[英]Efficiently read big csv file by parts using Dask

现在我正在使用 Dask 读取大型 csv 文件并对其进行一些后处理(例如,做一些数学运算,然后通过一些 ML 模型进行预测并将结果写入数据库)。 避免将所有数据加载到内存中,我想按当前大小的块读取:读取第一个块、预测、写入、读取第二个块等。

我使用skiprowsnrows尝试了下一个解决方案:

import dask.dataframe as dd
read_path = "medium.csv"

# Read by chunk
skiprows = 100000
nrows = 50000
res_df = dd.read_csv(read_path, skiprows=skiprows)
res_df = res_df.head(nrows)

print(res_df.shape)
print(res_df.head())

但我得到错误:

ValueError:样本不够大,无法包含至少一行数据。 请在调用read_csv / read_table增加sample中的字节数

此外,据我所知,它每次都会为所有数据计算二进制掩码 ([False, False, ... , True, ...]) 以查找要加载的行。 我们怎样才能更有效地做到这一点? 也许使用 dask 中的一些分布式或延迟功能?

Dask dataframe 会为你分区数据,你不需要使用nrows/skip_rows

df = dd.read_csv(filename)

如果你想选择一个特定的分区,那么你可以使用 partitions accessor

part = df.partitions[i]

但是,您可能还希望并行应用您的函数。

df.map_partitions(process).to_csv("data.*.csv")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM