繁体 English 中英

使用 Python 基于块训练大型数据集 [暂停]

[英]Training large dataset based on chunks using Python [on hold]

原文 2019-10-17 07:28:47 5 1 python/ machine-learning/ regression/ training-data

我有一个包含 1300 万条记录和 4 列的训练数据集。 我想在该数据集上训练回归 model 但我们知道我们不能一次训练 1300 万条记录，因为机器无法处理它（它给出了 memory 泄漏错误）。 所以我的问题是如何分块训练数据集并进行预测。

我遇到了具有部分拟合方法的 SGDRegressor，但不知道如何使用它。

现在，我在 5K 记录样本上使用Randomforest Regressor来处理 gridsearch CV，它运行良好，但进一步增加了样本，导致我出现“内存错误”。 我什至尝试了 Google Colab，它最终出现了相同的 memory 错误。

我正在寻找一个如何用块训练数据并预测包含 200k 记录的测试数据集的示例。

1 个解决方案

只需加载 5K 特征块并为每个块调用 SGDRegressor 的 partial_fit 方法。 如文档所述，您可能需要对每个功能多次执行此操作：

在内部，该方法使用 max_iter = 1。因此，不能保证调用一次后达到成本 function 的最小值。 客观收敛、提前停止等事项应由用户自行处理。

这意味着您需要自己实施训练的验证部分，以确保良好的收敛性。

以块的形式训练数据集上的SGDRegressor

[英]Training SGDRegressor on a dataset in chunks

Python：使用多处理程序以块的形式处理大型词典

[英]Python: Process large dictionary in chunks using multiprocessing

使用Python创建大型数据集

[英]create a large dataset using Python

如何在考虑function应用的完整数据集的同时，将超大数据集处理成Python（Pandas）中的块？

[英]How to processes the extremely large dataset into chunks in Python (Pandas), while considering the full dataset for application of function?

使用朴素贝叶斯分类器训练大型数据集时出现MemoryError

[英]MemoryError while training large dataset using naive bayes classifier

Python：加载 kmeans 训练数据集并使用它来预测新数据集

[英]Python: loading a kmeans training dataset and using it to predict a new dataset

内存错误：训练大型数据集

[英]Memory Error : Training large dataset

Python Training数据集

[英]Python Training dataset

Python Pandas - 使用 to_sql 以块的形式写入大型数据帧

[英]Python Pandas - Using to_sql to write large data frames in chunks

Python：以块的形式读取大文件

[英]Python: Read large file in chunks

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 以块的形式训练数据集上的SGDRegressor Python：使用多处理程序以块的形式处理大型词典使用Python创建大型数据集如何在考虑function应用的完整数据集的同时，将超大数据集处理成Python（Pandas）中的块？使用朴素贝叶斯分类器训练大型数据集时出现MemoryError Python：加载 kmeans 训练数据集并使用它来预测新数据集内存错误：训练大型数据集 Python Training数据集 Python Pandas - 使用 to_sql 以块的形式写入大型数据帧 Python：以块的形式读取大文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM