簡體 English 中英

如何在沒有足夠 RAM 的情況下使用 Pandas 打開巨大的鑲木地板文件

[英]How to open huge parquet file using Pandas without enough RAM

原文 2020-02-11 03:59:52 0 2 python/ pandas/ parquet/ pyarrow/ fastparquet

我正在嘗試使用 Pandas read_parquet函數將一個相當大的 Parquet 文件（約 2 GB，約 3000 萬行）讀入我的 Jupyter Notebook（在 Python 3 中）。 我還安裝了pyarrow和fastparquet庫， read_parquet函數將它們用作 parquet 文件的引擎。 不幸的是，似乎在閱讀時，我的計算機死機，最終我收到一個錯誤，說它內存不足（我不想重復運行代碼，因為這會導致再次凍結 - 我不知道逐字錯誤消息）。

有沒有一種好方法可以將鑲木地板文件的某些部分寫入內存而不會發生這種情況？ 我知道鑲木地板文件是柱狀的，可能無法僅將部分記錄存儲到內存中，但如果有解決方法，我想將其拆分，或者看看我在嘗試時是否做錯了什么讀入。

就規格而言，我確實有一台相對較弱的計算機，只有 6 GB 內存和 i3。 CPU 為 2.2 GHz，可使用 Turbo Boost。

2 個解決方案

你需要所有的列嗎？ 您也許可以通過加載實際使用的內存來節省內存。

第二種可能性是使用在線機器（如google colab ）加載 parquet 文件，然后將其另存為hdf 。 一旦你有了它，你就可以分塊使用它。

您可以使用 Dask 代替 Pandas。 它建立在 Pandas 之上，因此具有您可能熟悉的類似 API，並且適用於更大的數據。

https://examples.dask.org/dataframes/01-data-access.html

如何在不使用 Pandas 的情況下將 Numpy 轉換為 Parquet？

[英]How to convert Numpy to Parquet without using Pandas?

如何使用 Pandas 編寫分區的 Parquet 文件

[英]How to write a partitioned Parquet file using Pandas

如何使用 pandas 使用 zstandard 壓縮鑲木地板文件

[英]How to compress parquet file with zstandard using pandas

如何使用 Pandas 讀取鑲木地板文件

[英]How to read parquet file using Pandas

如何在python中打開鑲木地板（二進制數據類型）文件而不會出現RAM錯誤？

[英]How to open parquet (binary data type) files in python without getting RAM error?

Python - 讀取沒有熊貓的鑲木地板文件

[英]Python - read parquet file without pandas

如何在磁盤上存儲巨大的馬爾可夫鏈，同時能夠在不使用太多RAM的情況下查詢它？

[英]How to store a huge Markov chain on disk, while being able to query it without using too much RAM?

加入兩個巨大的文件，而不會與熊貓分塊

[英]Join two huge file without chunking with pandas

如何將 Parquet 文件讀入 Pandas DataFrame？

[英]How to read a Parquet file into Pandas DataFrame?

如何使用Python在HDFS中打開實木復合地板文件？

[英]How to open a parquet file in HDFS with Python?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在不使用 Pandas 的情況下將 Numpy 轉換為 Parquet？如何使用 Pandas 編寫分區的 Parquet 文件如何使用 pandas 使用 zstandard 壓縮鑲木地板文件如何使用 Pandas 讀取鑲木地板文件如何在python中打開鑲木地板（二進制數據類型）文件而不會出現RAM錯誤？ Python - 讀取沒有熊貓的鑲木地板文件如何在磁盤上存儲巨大的馬爾可夫鏈，同時能夠在不使用太多RAM的情況下查詢它？加入兩個巨大的文件，而不會與熊貓分塊如何將 Parquet 文件讀入 Pandas DataFrame？如何使用Python在HDFS中打開實木復合地板文件？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM