簡體   English   中英

用熊貓加載大CSV文件

[英]Loading big CSV file with pandas

我正在嘗試將csv文件(大約250 MB)加載為帶有大熊貓的數據框。 在我的第一次嘗試中,我使用了典型的read_csv命令,但收到了錯誤存儲器。 我已經嘗試使用大塊在熊貓的大型持久性DataFrame中提到的方法:

x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000)
xx=pd.concat([chunk for chunk in x], ignore_index=True)

但是,當我嘗試連接時,收到以下錯誤:異常:“所有傳遞的對象均為None” 實際上我無法訪問這些塊

我正在使用32位的WinPython 3.3.2.1和pandas 0.11.0

我建議您安裝64位版本的winpython。 然后,您應該能夠加載250 MB的文件而不會出現問題。

我來晚了,但是發布的代碼的實際問題是使用pd.concat([chunk for chunk in x])有效地取消了分塊的任何好處,因為它再次將所有這些塊連接到一個大DataFrame中。
這可能甚至臨時需要兩倍的內存。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM