如何將大數據集從MongoDB讀取到Pandas DataFrame

Question

我有一個大型數據集，其中包含類似（9232363X102和10 gb的文件大約）的數據。 我有一個12 Gb的ram系統。 我如何從熊貓中讀取並轉換為DataFrame。 首先我嘗試

df=pd.DataFrame(list(mng_clxn.find({})

它凍結了我的系統

所以我嘗試讀取特定的列，但仍然沒有用，我這樣讀，

df=pd.DataFrame(list(mng_clxn.find({},{'col1':1,col2:1,'col3':1,col4:1})

我嘗試的另一件事是閱讀，因為

df_db=pd.DataFrame()
offset=0
thresh=1000000
while(offset<9232363):

    chunk=pd.DataFrame(list(mng_clxn.find({},).limit(thresh).skip(offset)))
    offset+=thresh
    df_db=df_db.append(chunk)

這也沒有用，我現在該怎么辦？

我可以用我的系統（12gb Ram）解決此問題嗎？ 任何想法都是可取的。

如果您發現任何其他與此類似的問題，請隨時將其標記為重復。

提前致謝。

Answer 1

您可能需要更多的內存才能以合理的方式處理該數據集。 請確定從這個問題開始執行步驟4。 您可能還會考慮有關將熊貓與大型數據集一起使用的問題，但通常來說，即使您找到一種加載方式，也可能需要超過2gb的空間來處理數據。

如何將大數據集從MongoDB讀取到Pandas DataFrame

問題描述

1 個解決方案

解決方案1
0 已采納 2018-03-09 05:24:48

如何將大數據集從MongoDB讀取到Pandas DataFrame

問題描述

1 個解決方案

解決方案1 0 已采納 2018-03-09 05:24:48

解決方案1
0 已采納 2018-03-09 05:24:48