标签[joblib] - 堆栈内存溢出

在预测新数据集时，我应该使用 scaler.fit_trasform(new_dataset) 还是 scaler.transform(new_dataset) - When predicting new dataset should I use scaler.fit_trasform(new_dataset) or scaler.transform(new_dataset)

final_poly_converter = PolynomialFeatures(degree=3,include_bias=False) final_poly_features = final_poly_converter.fit_transform(X) final_scaler = ...

如何自定义attrs字段hash - How to customize attrs field hash

我想使用 Numpy 数组作为字段值，同时保持我的属性attrs可哈希。为此，我发现joblib 的hash() function 是散列 Numpy arrays 的好方法。是否有可能继续使用attrs的默认值 hash function，同时手动指定如何使用每个字段，例如 883518822 ...

使用 joblib 在 sklearn 管道中加载自定义 class 时出错 - error in loading a custom class in sklearn pipeline using joblib

我正在尝试使用 FastApi 部署一个 sklearn 管道，所以首先我将我的管道保存在一个作业库文件中。我的管道看起来像这样：pipe = Pipeline([('encoder', MultiColumnLabelEncoder(columns =['sg', 'al', 'su', 'rb ...

关于 joblib.dump() 的困惑 - Confusion regarding joblib.dump()

保存 sklearn 模型的一种方法是使用joblib.dump(model,filename) 。我对文件名参数感到困惑。运行此 function 的一种方法是通过：这将成功保存 model，并且使用以下命令正确加载 model：另一种方法是使用：这次没有“.joblib”扩展名。这也 ...

根据这个keras的文档，不建议pickle保存keras模式，而且由于joblib.dump()和joblib.load()都是基于Python pickle序列化model，joblib也不建议保存keras 88853656是什么原因是什么？ ...

如何在 Python 中有效地使用 Ray 并行化？ - How to effectively use parallelization with Ray in Python?

我正在尝试学习如何使用 Ray API 并与我的 joblib 代码进行比较。但是，我不知道如何有效地使用它（我的机器有 16 个 CPU）。我做错了什么吗？如果不是，为什么 Ray 这么慢？import ray from joblib import Parallel, delayed ...

捕获 sklearn joblib output 到 python 日志记录 - Catch sklearn joblib output to python logging

使用 sklearn 时，我想查看 output。因此，我在可用时使用verbose 。通常，我需要时间戳、进程 ID 等，所以我尽可能使用 python logging模块。之前已经完成了将sklearn output获取到logging模块，例如https://stackoverflow.c ...

HDBSCAN：聚类、持久化和 approximate_predict() - HDBSCAN : clustering , persistance and approximate_predict()

我想缓存我的 model 结果，以便在不重做聚类的情况下进行预测。我读到我可以在 HDBSCAN 中使用memory参数来做到这一点。我这样做是因为我想将文件保存在与我的脚本相同的目录中，而不是此处的'/tmp/joblib' （（ HDBSCAN 集群缓存和持久性））：clusterer = ...

使用 joblib 检查 integer 是否为质数。如果是，计算它的平方；否则，append None 返回值 - Use joblib to check whether an integer is a prime number or not. If it is, calculate its square; otherwise, append None to the returned value

...

如何控制方法的核心数 - How to control number of cores of a method

我有以下代码：from sklearn_extra.clusters import KMedoids def _compute_medoids(df, k): k_medoids = KMedoids(n_clusters=k, metric='precomputed', init='k- ...

错误：_pickle.PicklingError：无法腌制任务以将其发送给工人。 NotImplementedError: object 代理必须定义 __reduce_ex__() - Error: _pickle.PicklingError: Could not pickle the task to send it to the workers. NotImplementedError: object proxy must define __reduce_ex__()

我正在使用 Python 和 joblib。什么可能导致此错误？环境： Windows 10 x64 带 WSL2 Python 3.9 在 Windows 或 Linux 作业库 ...

从 joblib 分类器获取概率分数 - Get probability score from joblib classifier

我正在尝试使用 joblib python 库来加载和测试已训练并保存在 pkl 文件中的分类器 model。 model 已正确加载，并且使用predict方法我能够知道每个输入条目的预测 class。我需要知道 model 给每个预测的 class 的分数。我想知道 model 是否告诉输 ...

joblib.parallel 中的共享内存 pandas 数据帧 object - Shared-memory pandas data frame object in joblib.parallel

我正在使用来自 joblib 的并行 function 来并行化任务。所有进程都将 pandas dataframe 作为输入。为了减少使用 memory 的运行时间，可以共享这个 dataframe 吗？所有进程都是只读的就可以了。我找到了一个类似的解决方案，但对于 numpy 数组并在 ...

Pyinstaller 创建的 exe 文件无法使用 joblib 加载决策树 model - Pyinstaller created exe file cannot load Decision Tree model using joblib

我使用以下命令创建了我的大型 python 脚本的 exe 文件 - pyinstaller gui_final.py --onefile --hidden-import=sklearn --hidden-import=ipaddress --hidden-import=PIL --hidden- ...

工人完成任务后会发生什么？ - What happens with workers when they are done with their task?

我有一个任务，我的目标是在joblib -library 的帮助下并行化。 function 在顺序运行时相当慢，因此我尝试使用并行化范例来加快进程。唯一的块有大约 1000 个条目，并且与其他单元相比，某些单元的时间序列的创建需要更长的时间。这让我想到，一些工人正在工作，而另一些工人正在执 ...

访问另一个目录中的文件 (Python) - Access File In Another Directory (Python)

我尝试with open访问文件，但文件本身不在同一个文件夹中（因为我想访问许多不同文件夹中的文件）。但它一直告诉“[Errno 2] 没有这样的文件或目录：'model joblib [1 1]'” ...

没有名为 joblib Python 的模块 - No module named joblib Python

我正在尝试运行这个： https://github.com/HansiMcKlaus/AudioSpectrumVisualizer 所以我遵循需要做的事情来运行它。我 pip 安装所有要求 ffmpeg 并尝试使用默认示例运行。我有错误消息：这很奇怪，因为我已经安装了 joblib。所以我 ...

在并行化 python 程序中调试 IO 停止（状态 D），低 CPU 高 memory - Debug IO stall (state D) in parallelized python program, low CPU high memory

I have a Python program parallelized with joblib.Parallel , however, as you can see in this top screenshot, each process is using much less than 100 ...

如何限制 python 库中使用的 CPU 内核数量？ - How to limit the amount of CPU cores used in a python library?

我正在为 TensorFlow model（自己的代码，而不是 tf.Data）运行 DataPipeline，使用多处理库进行可调整的并行计算量。尽管限制了并行进程的数量 (#CPU)，但我注意到 CPU 负载非常高（显着高于 100%*#CPU）。我将问题追溯到我用来计算音频特征的 lib ...

使用 joblib 加载 pickle 文件 - Load pickle file with joblib

我想知道是否可以使用 joblib 加载 pickle 文件（由pickle.dump创建的文件）。其中object.pkl是泡菜文件。使用joblib加载泡菜文件是否正确且安全？如果上一个问题的答案是肯定的，那么pickle.load(open('object.pkl', 'rb'))和jo ...