簡體   English   中英

熊貓read_csv和4GB的csv

[英]Pandas read_csv with 4GB of csv

我的機器在嘗試使用juppersize選項在jupyter筆記本中讀取4GB的csv時表現不佳: raw = pd.read_csv(csv_path, chunksize=10**6) data = pd.concat(raw, ignore_index=True)這花了很多時間運行並凍結我的機器(帶有16GB RAM的Ubuntu 16.04)。 什么是正確的方法?

使用塊的要點是,您一次不需要整個數據集在內存中,並且可以在讀取文件時處理每個塊。 假設您一次不需要整個數據集,則可以

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
   do_something(chunk)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM