繁体 English 中英

如何确定 modin dataframe 是否适合 RAM？

[英]How to figure out if a modin dataframe is going to fit in RAM?

原文 2022-04-22 15:03:35 2 1 python/ pandas/ modin

我正在学习如何处理大型数据集，所以我正在使用 modin.pandas。 我正在做一些聚合，之后 50GB 数据集的大小有望变得接近 5GB - 现在我需要检查：如果 df 足够小以适合 RAM，我想将它转换为 pandas 并享受一个无错误的可靠库。 那么，自然而然地，问题是：如何检查它？ .memory_usage(deep=True).sum()告诉我整个 df 使用了多少，但我不可能从那个数字知道它有多少在 RAM 中，有多少在交换中——换句话说，有多少我需要空间才能将 df 转换为 pandas。还有其他方法吗？ 我什至可以假设某些分区存在于 RAM 中而其他分区存在于交换空间中吗？ 当我调用._to_pandas()时，如何计算有多少数据会淹没 RAM？ 是否有某种隐藏的.__memory_usage_in_swap_that_needs_to_fit_in_ram() ？

1 个解决方案

我什至可以假设某些分区存在于 RAM 中而其他分区存在于交换空间中吗？

Modin 没有指定数据是应该在 RAM 中还是在交换区中。

在 Ray 上，它使用 ray.put来存储分区。 ray.put不保证数据将位于 go 的位置。请注意，当数据块对于其内存中的 object 存储来说太大时，Ray 会将数据块溢出到磁盘。 您可以使用ray memory来汇总每个 Ray 使用的存储量。

在 Dask 上，modin 使用 dask.Client.scatter来存储分区数据，它也不能保证数据将存储在 go 的位置。 我不知道有什么方法可以确定有多少存储数据确实在 RAM 中。

如何将Modin Pandas数据框附加到其他数据框？

[英]How to append a Modin pandas dataframe to other?

如何将类型：pandas.core.frame.DataFrame 替换为类型：modin.pandas.dataframe.DataFrame

[英]How to replace type: pandas.core.frame.DataFrame with type: modin.pandas.dataframe.DataFrame

如何在不耗尽 RAM 的情况下创建额外的列，然后将其用于 ML 算法？

[英]How can I create extra columns without going out of RAM, and then use it for ML algorithms?

无法弄清楚此编码出了什么问题

[英]Can not figure out what is going wrong with this coding

如何计算每个唯一键的趋势。数据帧

[英]how to figure out trend per unique key. dataframe

加入两个modin.pandas.DataFrame（s）

[英]Join two modin.pandas.DataFrame(s)

将pandas数据帧的“Out []”表保存为数字

[英]Save the “Out[]” table of a pandas dataframe as a figure

无法找出功能出了什么问题

[英]Can't figure out where function is going wrong

我是编码新手，正在通过 Tim 的聊天机器人教程学习技术。我不知道如何解决这个错误

[英]I'm new to coding and am going through Tech with Tim's chatbot tutorial. I cannot figure out how to solve this error

如何使Python图像“适合”这个数字？

[英]How to make a Python image 'fit' the figure?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何将Modin Pandas数据框附加到其他数据框？如何将类型：pandas.core.frame.DataFrame 替换为类型：modin.pandas.dataframe.DataFrame 如何在不耗尽 RAM 的情况下创建额外的列，然后将其用于 ML 算法？无法弄清楚此编码出了什么问题如何计算每个唯一键的趋势。数据帧加入两个modin.pandas.DataFrame（s）将pandas数据帧的“Out []”表保存为数字无法找出功能出了什么问题我是编码新手，正在通过 Tim 的聊天机器人教程学习技术。我不知道如何解决这个错误如何使Python图像“适合”这个数字？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM