簡體   English   中英

將dict轉換為數據框時熊貓出現內存錯誤

[英]Memory Error with pandas when convert dict to dataframe

我有一個約70K X 70K尺寸的字典變量,我想將其轉換為Dataframe以便通過以下方式進行進一步操作

wd=pd.DataFrame(wordDict)

但工作5分鍾后,出現以下錯誤:

subarr=np.empty(len(),dtype=dtyp)
Memory Error

我可以找到一些有關它的帖子, 但似乎這是熊貓和Numpy庫的一個常見問題,不幸的是沒有人可以提供具體答案 ,他們大多建議切片數據集並分兩步或三步進行處理。

只是我再次提出了這個問題,希望圖書館可以提供一些更新的數據來解決它,或者有一些技術可以克服。

作為總結 ; 是蟲子嗎? 並且有任何其他解決方案可以將字典轉換為數據框謝謝

這不是錯誤。

大小為70k x 70k的數​​組意味着需要將49億個變量存儲在數據框中。

數據框相對於字典和列表之類的對象有開銷。 因此,您將需要字典使用兩倍以上的內存來構建數據框。

您需要考慮另一種使用數據的方式。 一些例子:

  • 使用HDF5將數據延遲寫入文件,然后讀取內存不足。
  • 將數據存儲在延遲寫入的csv文件中,讀取並分塊過濾以減少內存消耗。
  • 將數據存儲在延遲寫入的csv文件中,並通過dask.dataframe讀取和過濾。

您尚未提供問題的詳細信息,以供我們進一步建議。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM