繁体   English   中英

熊猫read_csv和4GB的csv

[英]Pandas read_csv with 4GB of csv

我的机器在尝试使用juppersize选项在jupyter笔记本中读取4GB的csv时表现不佳: raw = pd.read_csv(csv_path, chunksize=10**6) data = pd.concat(raw, ignore_index=True)这花了很多时间运行并冻结我的机器(带有16GB RAM的Ubuntu 16.04)。 什么是正确的方法?

使用块的要点是,您一次不需要整个数据集在内存中,并且可以在读取文件时处理每个块。 假设您一次不需要整个数据集,则可以

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
   do_something(chunk)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM