熊猫read_csv和4GB的csv

Question

我的机器在尝试使用juppersize选项在jupyter笔记本中读取4GB的csv时表现不佳： raw = pd.read_csv(csv_path, chunksize=10**6) data = pd.concat(raw, ignore_index=True)这花了很多时间运行并冻结我的机器（带有16GB RAM的Ubuntu 16.04）。 什么是正确的方法？

Answer 1

使用块的要点是，您一次不需要整个数据集在内存中，并且可以在读取文件时处理每个块。 假设您一次不需要整个数据集，则可以

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
   do_something(chunk)

熊猫read_csv和4GB的csv

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-03-13 19:32:19

熊猫read_csv和4GB的csv

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-03-13 19:32:19

解决方案1
2 已采纳 2018-03-13 19:32:19