繁体   English   中英

如何将大数据集从MongoDB读取到Pandas DataFrame

[英]How to read large data set from mongodb to pandas dataframe

我有一个大型数据集,其中包含类似(9232363X102和10 gb的文件大约)的数据。 我有一个12 Gb的ram系统。 我如何从熊猫中读取并转换为DataFrame。 首先我尝试

df=pd.DataFrame(list(mng_clxn.find({})

它冻结了我的系统

所以我尝试读取特定的列,但仍然没有用,我这样读,

df=pd.DataFrame(list(mng_clxn.find({},{'col1':1,col2:1,'col3':1,col4:1})

我尝试的另一件事是阅读,因为

df_db=pd.DataFrame()
offset=0
thresh=1000000
while(offset<9232363):

    chunk=pd.DataFrame(list(mng_clxn.find({},).limit(thresh).skip(offset)))
    offset+=thresh
    df_db=df_db.append(chunk)

这也没有用,我现在该怎么办?

我可以用我的系统(12gb Ram)解决此问题吗? 任何想法都是可取的。

如果您发现任何其他与此类似的问题,请随时将其标记为重复。

提前致谢。

您可能需要更多的内存才能以合理的方式处理该数据集。 请确定从这个问题开始执行步骤4。 您可能还会考虑有关将熊猫与大型数据集一起使用的问题 ,但通常来说,即使您找到一种加载方式,也可能需要超过2gb的空间来处理数据。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM