[英]How can i reduce memory usage of Scikit-Learn Vectorizers?
TFIDFVectorizer占用了大量内存,向量化470 MB的100k文档需要超过6 GB,如果我们去2100万个文档,它将不适合我们拥有的60 GB RAM。
所以我们去HashingVectorizer,但仍然需要知道如何分发散列矢量器.Fit和partial fit什么都不做,所以如何使用Huge Corpus?
我强烈建议您在大型数据集上拟合模型时使用HashingVectorizer 。
HashingVectorizer
与数据无关,只有来自vectorizer.get_params()
的参数很重要。 因此(un)酸洗`HashingVectorizer实例应该非常快。
基于词汇的矢量化器更适合于小型数据集的探索性分析。
克服HashingVectorizer无法解释IDF的一种方法是将数据索引到elasticsearch或lucene,并从那里检索termvectors,使用它们可以计算Tf-IDF。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.