繁体   English   中英

如何减少Scikit-Learn Vectorizers的内存使用量?

[英]How can i reduce memory usage of Scikit-Learn Vectorizers?

TFIDFVectorizer占用了大量内存,向量化470 MB的100k文档需要超过6 GB,如果我们去2100万个文档,它将不适合我们拥有的60 GB RAM。

所以我们去HashingVectorizer,但仍然需要知道如何分发散列矢量器.Fit和partial fit什么都不做,所以如何使用Huge Corpus?

我强烈建议您在大型数据集上拟合模型时使用HashingVectorizer

HashingVectorizer与数据无关,只有来自vectorizer.get_params()的参数很重要。 因此(un)酸洗`HashingVectorizer实例应该非常快。

基于词汇的矢量化器更适合于小型数据集的探索性分析。

克服HashingVectorizer无法解释IDF的一种方法是将数据索引到elasticsearch或lucene,并从那里检索termvectors,使用它们可以计算Tf-IDF。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM