簡體   English   中英

pandas 壓縮級別和 memory 用法

[英]pandas compression level and memory usage

向社區致意

我有一個簡單的問題,我可能可以自己回答,但我真的很想聽聽別人的意見。
我們正在開發一個 model(在 python 中),它使用 feather 和 hdf5 文件的組合來存儲結果。 我們使用 pandas。
現在,我選擇使用未壓縮的文件和 blosc:snappy 算法,因為我們更感興趣的是在 I/O 操作期間保持 memory 的低使用率而不是磁盤空間。 從理論上講,更高的壓縮意味着更小的文件,以讀取/寫入時間和 memory 為代價。
pandas 提供了多種壓縮算法。 所以我的假設是,未壓縮的文件更適合 memory 使用,對所有這些算法是否正確?
如果我只想在讀/寫過程中保持 memory 的低使用率,那么使用壓縮真的有意義嗎?
我找不到 memory 使用情況和壓縮級別的單一比較圖表。
謝謝

只有您知道問題的答案,因為這取決於與應用程序中的其他活動相比,您壓縮和解壓縮數據的頻率,以及由於避免抖動而減少 memory 使用量提高了多少速度。 沒有通用的基准可以讓您深入了解您的問題。

我建議為您的應用程序試驗lz4

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM