簡體   English   中英

如何將大數據集從MongoDB讀取到Pandas DataFrame

[英]How to read large data set from mongodb to pandas dataframe

我有一個大型數據集,其中包含類似(9232363X102和10 gb的文件大約)的數據。 我有一個12 Gb的ram系統。 我如何從熊貓中讀取並轉換為DataFrame。 首先我嘗試

df=pd.DataFrame(list(mng_clxn.find({})

它凍結了我的系統

所以我嘗試讀取特定的列,但仍然沒有用,我這樣讀,

df=pd.DataFrame(list(mng_clxn.find({},{'col1':1,col2:1,'col3':1,col4:1})

我嘗試的另一件事是閱讀,因為

df_db=pd.DataFrame()
offset=0
thresh=1000000
while(offset<9232363):

    chunk=pd.DataFrame(list(mng_clxn.find({},).limit(thresh).skip(offset)))
    offset+=thresh
    df_db=df_db.append(chunk)

這也沒有用,我現在該怎么辦?

我可以用我的系統(12gb Ram)解決此問題嗎? 任何想法都是可取的。

如果您發現任何其他與此類似的問題,請隨時將其標記為重復。

提前致謝。

您可能需要更多的內存才能以合理的方式處理該數據集。 請確定從這個問題開始執行步驟4。 您可能還會考慮有關將熊貓與大型數據集一起使用的問題 ,但通常來說,即使您找到一種加載方式,也可能需要超過2gb的空間來處理數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM