繁体 English 中英

scikit-learn是否适合大数据任务？

[英]Is scikit-learn suitable for big data tasks?

原文 2013-06-10 06:19:16 1 1 python/ machine-learning/ scikit-learn

我正在研究一项涉及机器学习技术的TREC任务，其中数据集包含超过5TB的Web文档，计划从中提取词袋向量。 scikit-learn有一套很好的功能，似乎符合我的需要，但我不知道它是否能够很好地处理大数据。 例如， HashingVectorizer能够处理HashingVectorizer的文档，并行化它是否可行？ 此外，还有哪些替代方案可用于大规模机器学习任务？

1 个解决方案

如果您将数据迭代地分块到适合内存的10k或100k文档批处理中， HashingVectorizer将会起作用。

然后，您可以将一批转换后的文档传递给支持partial_fit方法的线性分类器（例如SGDClassifier或PassiveAggressiveClassifier ），然后迭代新批次。

您可以在保持验证集（例如10k文档）上开始对模型进行评分，以便在不等待看到所有样本的情况下监控部分训练模型的准确性。

您还可以在数据分区上的多台计算机上并行执行此操作，然后对得到的coef_和intercept_属性求平均，以获得所有数据集的最终线性模型。

我在2013年3月在PyData上发表的演讲中对此进行了讨论： http ：//vimeo.com/63269736

本教程中还有一些示例代码，用于解析scyit-learn with IPython.parallel取自： https ： //github.com/ogrisel/parallel_ml_tutorial

如何使用scikit-learn对大文本数据进行分类？

[英]How can I classify big text data with scikit-learn?

准备数据以进行scikit学习

[英]Prepare data for scikit-learn

使用大数据集进行 scikit-learn 向量化

[英]scikit-learn vectorizing with big dataset

如何将数据从Excel电子表格转换为合适的表示形式以训练scikit学习模型

[英]How to convert data from an excel spreadsheet to a suitable representation for training a scikit-learn model

如何使用scikit-learn将数据转换为适合用于多类分类任务的格式？

[英]How to convert data in to a format suitable to be used for a multi-class classification task, using scikit-learn?

缺失数据的python scikit-learn聚类

[英]python scikit-learn clustering with missing data

将 CSV 数据导入 scikit-learn？

[英]Importing CSV data into scikit-learn?

scikit-learn中的hmmlearn中缺少数据

[英]missing data in hmmlearn from scikit-learn

scikit-learn添加训练数据

[英]scikit-learn add training data

Scikit学习：替换丢失的数据时出错

[英]Scikit-learn: error in replacing missing data

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用scikit-learn对大文本数据进行分类？准备数据以进行scikit学习使用大数据集进行 scikit-learn 向量化如何将数据从Excel电子表格转换为合适的表示形式以训练scikit学习模型如何使用scikit-learn将数据转换为适合用于多类分类任务的格式？缺失数据的python scikit-learn聚类将 CSV 数据导入 scikit-learn？ scikit-learn中的hmmlearn中缺少数据 scikit-learn添加训练数据 Scikit学习：替换丢失的数据时出错

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM