[英]Loading big CSV file with pandas
我正在嘗試將csv文件(大約250 MB)加載為帶有大熊貓的數據框。 在我的第一次嘗試中,我使用了典型的read_csv命令,但收到了錯誤存儲器。 我已經嘗試使用大塊在熊貓的大型持久性DataFrame中提到的方法:
x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000)
xx=pd.concat([chunk for chunk in x], ignore_index=True)
但是,當我嘗試連接時,收到以下錯誤:異常:“所有傳遞的對象均為None” 。 實際上我無法訪問這些塊
我正在使用32位的WinPython 3.3.2.1和pandas 0.11.0
我建議您安裝64位版本的winpython。 然后,您應該能夠加載250 MB的文件而不會出現問題。
我來晚了,但是發布的代碼的實際問題是使用pd.concat([chunk for chunk in x])
有效地取消了分塊的任何好處,因為它再次將所有這些塊連接到一個大DataFrame中。
這可能甚至臨時需要兩倍的內存。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.