繁体 English 中英

如何在没有足够 RAM 的情况下使用 Pandas 打开巨大的镶木地板文件

[英]How to open huge parquet file using Pandas without enough RAM

原文 2020-02-11 03:59:52 1 2 python/ pandas/ parquet/ pyarrow/ fastparquet

我正在尝试使用 Pandas read_parquet函数将一个相当大的 Parquet 文件（约 2 GB，约 3000 万行）读入我的 Jupyter Notebook（在 Python 3 中）。 我还安装了pyarrow和fastparquet库， read_parquet函数将它们用作 parquet 文件的引擎。 不幸的是，似乎在阅读时，我的计算机死机，最终我收到一个错误，说它内存不足（我不想重复运行代码，因为这会导致再次冻结 - 我不知道逐字错误消息）。

有没有一种好方法可以将镶木地板文件的某些部分写入内存而不会发生这种情况？ 我知道镶木地板文件是柱状的，可能无法仅将部分记录存储到内存中，但如果有解决方法，我想将其拆分，或者看看我在尝试时是否做错了什么读入。

就规格而言，我确实有一台相对较弱的计算机，只有 6 GB 内存和 i3。 CPU 为 2.2 GHz，可使用 Turbo Boost。

2 个解决方案

你需要所有的列吗？ 您也许可以通过加载实际使用的内存来节省内存。

第二种可能性是使用在线机器（如google colab ）加载 parquet 文件，然后将其另存为hdf 。 一旦你有了它，你就可以分块使用它。

您可以使用 Dask 代替 Pandas。 它建立在 Pandas 之上，因此具有您可能熟悉的类似 API，并且适用于更大的数据。

https://examples.dask.org/dataframes/01-data-access.html

如何在不使用 Pandas 的情况下将 Numpy 转换为 Parquet？

[英]How to convert Numpy to Parquet without using Pandas?

如何使用 Pandas 编写分区的 Parquet 文件

[英]How to write a partitioned Parquet file using Pandas

如何使用 pandas 使用 zstandard 压缩镶木地板文件

[英]How to compress parquet file with zstandard using pandas

如何使用 Pandas 读取镶木地板文件

[英]How to read parquet file using Pandas

如何在python中打开镶木地板（二进制数据类型）文件而不会出现RAM错误？

[英]How to open parquet (binary data type) files in python without getting RAM error?

Python - 读取没有熊猫的镶木地板文件

[英]Python - read parquet file without pandas

如何在磁盘上存储巨大的马尔可夫链，同时能够在不使用太多RAM的情况下查询它？

[英]How to store a huge Markov chain on disk, while being able to query it without using too much RAM?

加入两个巨大的文件，而不会与熊猫分块

[英]Join two huge file without chunking with pandas

如何将 Parquet 文件读入 Pandas DataFrame？

[英]How to read a Parquet file into Pandas DataFrame?

如何使用Python在HDFS中打开实木复合地板文件？

[英]How to open a parquet file in HDFS with Python?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在不使用 Pandas 的情况下将 Numpy 转换为 Parquet？如何使用 Pandas 编写分区的 Parquet 文件如何使用 pandas 使用 zstandard 压缩镶木地板文件如何使用 Pandas 读取镶木地板文件如何在python中打开镶木地板（二进制数据类型）文件而不会出现RAM错误？ Python - 读取没有熊猫的镶木地板文件如何在磁盘上存储巨大的马尔可夫链，同时能够在不使用太多RAM的情况下查询它？加入两个巨大的文件，而不会与熊猫分块如何将 Parquet 文件读入 Pandas DataFrame？如何使用Python在HDFS中打开实木复合地板文件？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM