繁体 English 中英

如何减少Scikit-Learn Vectorizers的内存使用量？

[英]How can i reduce memory usage of Scikit-Learn Vectorizers?

原文 2013-07-08 21:36:35 1 2 python/ numpy/ machine-learning/ scipy/ scikit-learn

TFIDFVectorizer占用了大量内存，向量化470 MB的100k文档需要超过6 GB，如果我们去2100万个文档，它将不适合我们拥有的60 GB RAM。

所以我们去HashingVectorizer，但仍然需要知道如何分发散列矢量器.Fit和partial fit什么都不做，所以如何使用Huge Corpus？

2 个解决方案

我强烈建议您在大型数据集上拟合模型时使用HashingVectorizer 。

HashingVectorizer与数据无关，只有来自vectorizer.get_params()的参数很重要。 因此（un）酸洗`HashingVectorizer实例应该非常快。

基于词汇的矢量化器更适合于小型数据集的探索性分析。

克服HashingVectorizer无法解释IDF的一种方法是将数据索引到elasticsearch或lucene，并从那里检索termvectors，使用它们可以计算Tf-IDF。

scikit学习矢量化器的自定义标记器

[英]Custom tokenizer for scikit-learn vectorizers

将 scikit-learn 向量化器和词汇表与 gensim 一起使用

[英]Using scikit-learn vectorizers and vocabularies with gensim

scikit-learn DBSCAN内存使用情况

[英]scikit-learn DBSCAN memory usage

我如何分发minibatch kmeans（scikit-learn）的处理？

[英]How can i distribute processing of minibatch kmeans (scikit-learn)?

如何使Scikit学习TfidfVectorizer不预处理文本？

[英]How can I make Scikit-learn TfidfVectorizer not to preprocess the text?

如何手动创建 scikit-learn 树？

[英]How can I create a scikit-learn tree by hand?

scikit-learn 随机森林内存使用过多

[英]scikit-learn Random Forest excessive memory usage

如何在Raspberry Pi上运行python scikit-learn？

[英]How can I run python scikit-learn on Raspberry Pi?

scikit-learn中的对象没有属性，如何访问它？

[英]Object has no attribute in scikit-learn, how can I access it?

如何使用scikit-learn对大文本数据进行分类？

[英]How can I classify big text data with scikit-learn?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 scikit学习矢量化器的自定义标记器将 scikit-learn 向量化器和词汇表与 gensim 一起使用 scikit-learn DBSCAN内存使用情况我如何分发minibatch kmeans（scikit-learn）的处理？如何使Scikit学习TfidfVectorizer不预处理文本？如何手动创建 scikit-learn 树？ scikit-learn 随机森林内存使用过多如何在Raspberry Pi上运行python scikit-learn？ scikit-learn中的对象没有属性，如何访问它？如何使用scikit-learn对大文本数据进行分类？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM