如何将大数据集从MongoDB读取到Pandas DataFrame

Question

我有一个大型数据集，其中包含类似（9232363X102和10 gb的文件大约）的数据。 我有一个12 Gb的ram系统。 我如何从熊猫中读取并转换为DataFrame。 首先我尝试

df=pd.DataFrame(list(mng_clxn.find({})

它冻结了我的系统

所以我尝试读取特定的列，但仍然没有用，我这样读，

df=pd.DataFrame(list(mng_clxn.find({},{'col1':1,col2:1,'col3':1,col4:1})

我尝试的另一件事是阅读，因为

df_db=pd.DataFrame()
offset=0
thresh=1000000
while(offset<9232363):

    chunk=pd.DataFrame(list(mng_clxn.find({},).limit(thresh).skip(offset)))
    offset+=thresh
    df_db=df_db.append(chunk)

这也没有用，我现在该怎么办？

我可以用我的系统（12gb Ram）解决此问题吗？ 任何想法都是可取的。

如果您发现任何其他与此类似的问题，请随时将其标记为重复。

提前致谢。

Answer 1

您可能需要更多的内存才能以合理的方式处理该数据集。 请确定从这个问题开始执行步骤4。 您可能还会考虑有关将熊猫与大型数据集一起使用的问题，但通常来说，即使您找到一种加载方式，也可能需要超过2gb的空间来处理数据。

如何将大数据集从MongoDB读取到Pandas DataFrame

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-03-09 05:24:48

如何将大数据集从MongoDB读取到Pandas DataFrame

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-03-09 05:24:48

解决方案1
0 已采纳 2018-03-09 05:24:48