标签[modin] - 堆栈内存溢出

使用 modin panda 读取 sas7bdat 大文件：FactoryDispatcher.read_sas() 需要 1 个位置参数，但给出了 2 个 - Reading sas7bdat large file using modin panda: FactoryDispatcher.read_sas() takes 1 positional argument but 2 were given

我想在 jupyter notebook 中读取一个大文件。（由于 memory 的限制，无法使用 pandas 读取）。数据文件需要超过 35 GB memory 但我的空间只有 20 GB。因此，我尝试改用 modin panda 但出现错误。 FactoryDispatcher.re ...

类型错误：'LocalFileOpener' object 不可迭代 - TypeError: 'LocalFileOpener' object is not iterable

我有一个包含数百万条目的巨大数据集（这是一个普通的.csv 文件，当我用熊猫加载它时没有错误）。 Pandas 在尝试加载数据集 (.csv) 时遇到困难，所以我决定使用 modin，这显然允许您使用只有一行差异的多个进程。当我运行时：我收到以下错误：这是完整的代码：根据我的研究，这显然与 ...

Modin pandas / modin.db_conn 数据库连接错误（不支持的数据库库） - Modin pandas / modin.db_conn database connection error (Unsupported database library)

使用 pandas 时，我可以连接到现在，我正在尝试用modin.pandas替换pandas并使用数据库。但无论我尝试什么，我总是得到一个不受支持的数据库的错误：错误：官方文档对这个错误帮助不大： https://modin.readthedocs.io/en/0.12.0/using_ ...

导入 modin.pandas 导致错误：AttributeError：类型 object 'pyarrow.lib.Message' 没有属性 '__reduce_cython__' - import modin.pandas causes ERROR: AttributeError: type object 'pyarrow.lib.Message' has no attribute '__reduce_cython__'

问题我已经安装了conda install -c conda-forge modin 当我导入import modin.pandas as pd 我收到一条错误消息尝试过的解决方案类似于但不同的框架，不同的用例和略有不同的错误消息 - 使用 Pyinstaller exe 时出现“没有属性 're ...

顶级进口取代低级进口？ - Top level imports supersede lower level imports?

在一个 jupyter 笔记本中，我有 utils.py有import pandas as pd utils.py中的pd是否导入pandas或modin.pandas ？如果是前者，我有没有办法让utils.py使用modin.pandas笔记本中的 modin.pandas，而无需在 ...

Modin - ModuleNotFoundError：没有名为“ray”的模块 - Modin - ModuleNotFoundError: No module named 'ray'

我正在尝试在 Databricks 上使用 Modin 并收到此错误我已经尝试过pip install modin[all]和pip install modin[ray] 首先，安装需要 15 分钟，这很奇怪。安装后，我在做收到此错误 ModuleNotFoundError：没有 ...

是否可以在同一代码中更改 Python 中的类似库（数据分析）？ - Is it possibe to change similar libraries (Data Analysis) in Python within the same code?

我使用modin库进行多处理。虽然该库非常适合更快的处理，但它在merge时失败，我想在代码之间恢复为默认的 pandas。我理解根据 PEP 8：E402 约定，导入应该在代码顶部声明一次，但是我的情况需要另外声明。然后我想在相同的代码中恢复到默认的 pandas 但是我将如何在pan ...

与 Pandas 默认值相比，使用 modin 提供不同的结果 - Using modin provides different results compared to Pandas default

当我在modin中使用 pandas 和使用pandas default 时，我得到不同的结果当我在默认pandas中运行以下代码时，输出是所需的：但是当我用modin运行它时，我得到一个不同且不正确的输出问题是我必须将函数作为大型工作流程的一部分运行，并且当我在开始时导入 m ...

在 pandas 中使用 Levenshtein 比较字符串时提高 Python 代码性能 - Improving Python code performance when comparing strings using Levenshtein in pandas

我有这段代码可以正常运行并产生我正在寻找的结果：但是，由于字符串比较是一项非常昂贵的操作，因此该脚本非常慢，并且仅适用于具有 5000-7000 行的相对较小的 CSV 文件。任何大的（超过 12MB）都需要几天才能抛出与内存相关的错误消息。我尝试在具有 32 GB 内存的 32 个内核上 ...

Modin with ray for pandas 在命令提示符下工作但不在空闲状态下，没有错误代码 - Modin with ray for pandas working in command prompt but not on Idle, no error code

我尝试使用 modin 而不是 pandas 来“通过更改一行代码进行并行化”我正在使用 IDLE 并且当我运行此代码时：一些命令提示符窗口打开和关闭（它们的路径指的是射线），然后是行：=============================== = RESTART: Shell ===== ...

Apple M1 芯片上的 Modin[dask] - Modin[dask] on Apple M1 chip

我已经在我的 Apple M1 芯片 MacBook Pro 上成功安装了带有 conda 的 modin[dask]，但是当我运行代码时，出现以下错误： AttributeError: 'NoneType' object 没有属性 'ncores'。以下是 pip 列表（Python 3.1 ...

如何确定 modin dataframe 是否适合 RAM？ - How to figure out if a modin dataframe is going to fit in RAM?

我正在学习如何处理大型数据集，所以我正在使用 modin.pandas。我正在做一些聚合，之后 50GB 数据集的大小有望变得接近 5GB - 现在我需要检查：如果 df 足够小以适合 RAM，我想将它转换为 pandas 并享受一个无错误的可靠库。那么，自然而然地，问题是：如何检查它？ . ...

如何将类型：pandas.core.frame.DataFrame 替换为类型：modin.pandas.dataframe.DataFrame - How to replace type: pandas.core.frame.DataFrame with type: modin.pandas.dataframe.DataFrame

我尝试在代码中将 pandas 替换为 modin pandas：但错误是：我应该如何更改代码来解决问题？ ...

Pandas Modin ray库启动失败 - Pandas Modin ray library fails to startup

我正在尝试使用modin加速我的 pandas 数据处理我收到以下警告和错误：虽然我已经清楚地重新运行代码，但它们之间的时间间隔超过 30 秒。当我在安装 modin 和 ray 后第一次运行它时，它运行得相当好，只有以下警告：然后我将代码修改为：我收到此错误：当我查看这个问题的 Git ...

从稀疏矩阵导入时出现 Modin AttributeError - Modin AttributeError when importing from sparse matrix

我正在尝试使用 Modin package 导入使用 scipy 创建的稀疏矩阵（特别是 scipy.sparse.csr_matrix）。调用方法：我收到以下属性错误：在使用原始 pandas API 时，它可以工作。有类似问题的人吗？感谢您的支持 ...

Pandas findall 到单行的结果 - Pandas result of findall to single row

你好，我有 csv 文件，我使用 pandas，我的问题是当我使用 pandas.Series.str.findall 时。我不会在调用 findall 之后将结果值（什么是数组）保存到 csv 中的行这是我的代码我的输入 csv 看起来像以及我想要什么 ...

将 Prophet 或 Auto ARIMA 与 Ray 一起使用 - Using Prophet or Auto ARIMA with Ray

关于雷，我找不到明确的答案。 Ray 是一个用于数据处理和训练的分布式框架。为了使其以分布式方式工作，必须使用 Modin 或 Ray 支持的其他一些分布式数据分析工具，以便数据可以在整个集群上流动，但是如果我想使用像 Facebook 的 Prophet 或 ARIMA 这样的模型熊猫数据框作 ...

将 python 响应转换为 Json 响应 - Transform python response to Json response

我已经研究了 python 代码，该代码自动读取多个扩展名的数据帧并打印 DF 的前 100 行及其列的类型，并有可能在同一个简单的 function 中添加更多内容，我目前正在研究以 JSON 格式做出响应但仍然无法这样做，因为这是我第一次使用 Json API 因为我更喜欢数据分析/科学而不是编 ...

我可以设置modin的并行read_sql函数的隔离级别吗？ - Can I set the isolation level of modin's parallel read_sql function?

我有一些 python 代码，我试图用它来使用 sqlalchemy 和 modin 从我的数据库中并行读取未提交的内容。我尝试将函数调用为： df = pd.read_sql("select * from my_table", uri_string, params={'isolation_lev ...

modin pandas read_parquet() 在 ETag KeyError 上失败，试图从 s3 读取分区的镶木地板 - modin pandas read_parquet() failed on ETag KeyError trying to read a partitioned parquet from s3

我从熊猫创建了一个数据框，并使用 to_parquet(...) 直接写入 s3。论据是：当我使用熊猫的pandas.read_parquet(url) ，数据pandas.read_parquet(url)加载良好。但是当我使用modin.pandas.read_parquet(ur ...