熊貓read_csv和4GB的csv

Question

我的機器在嘗試使用juppersize選項在jupyter筆記本中讀取4GB的csv時表現不佳： raw = pd.read_csv(csv_path, chunksize=10**6) data = pd.concat(raw, ignore_index=True)這花了很多時間運行並凍結我的機器（帶有16GB RAM的Ubuntu 16.04）。 什么是正確的方法？

Answer 1

使用塊的要點是，您一次不需要整個數據集在內存中，並且可以在讀取文件時處理每個塊。 假設您一次不需要整個數據集，則可以

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
   do_something(chunk)

熊貓read_csv和4GB的csv

問題描述

1 個解決方案

解決方案1
2 已采納 2018-03-13 19:32:19

熊貓read_csv和4GB的csv

問題描述

1 個解決方案

解決方案1 2 已采納 2018-03-13 19:32:19

解決方案1
2 已采納 2018-03-13 19:32:19