繁体 English 中英

使用Scikit-Learn和Gensim的SVD具有600万个功能

[英]SVD using Scikit-Learn and Gensim with 6 million features

原文 2017-02-18 14:30:56 2 1 python/ scikit-learn/ gensim/ svd

我试图根据他们的情绪对段落进行分类。 我有60万份文件的培训数据。 当我将它们转换为Tf-Idf向量空间时，单词作为分析器，ngram范围为1-2，有近600万个特征。 所以我必须做奇异值分解（SVD）来减少特征。

我尝试过gensim和sklearn的SVD功能。 两者都可以正常工作，直到100减少功能，但是当我尝试200个功能时，它们会引发内存错误。

另外我还没有使用整个文档（60万）作为训练数据，我只采用了50000个文档。 基本上我的训练矩阵是：50000 * 600万，并希望将其减少到50000 *（100到500）

有没有其他方法可以在python中实现它，或者我是否必须实现sparks mllib SVD（仅针对java和scala编写）？ 如果是的话，会有多快？

系统规格：ubuntu 14.04上带有4个核心处理器的32 Gb RAM

1 个解决方案

我真的不明白为什么使用spark mllib SVD可以提高性能或避免内存错误。 您只需超过RAM的大小。 你有一些选择来处理：

减少tf-idf的字典大小（例如，使用scikit-learn的max_df和min_df参数）。
使用散列矢量化器而不是tf-idf。
获得更多RAM（但在某些时候tf-idf + SVD不可扩展）。

你也应该展示你的代码示例，你可能在你的python代码中做错了。

将 scikit-learn 向量化器和词汇表与 gensim 一起使用

[英]Using scikit-learn vectorizers and vocabularies with gensim

在scikit-learn中使用多种功能

[英]Using multiple features with scikit-learn

使用scikit-learn处理分类特征

[英]Handling categorical features using scikit-learn

在scikit-learn管道中使用gensim word2vec

[英]Using gensim word2vec in scikit-learn pipeline

使用scikit-learn TfIdf和gensim LDA

[英]Use scikit-learn TfIdf with gensim LDA

scikit-learn使用什么距离函数来分类特征？

[英]What distance function is scikit-learn using for categorical features?

将 Sentence-Bert 与 scikit-learn 中的其他功能一起使用

[英]Using Sentence-Bert with other features in scikit-learn

使用scikit-learn处理太多分类功能

[英]handling too many categorical features using scikit-learn

在 scikit-learn 中使用 GridSearch 确定要删除/选择的功能

[英]Determine what features to drop / select using GridSearch in scikit-learn

scikit-learn SGD文档分类器：仅使用重要功能

[英]scikit-learn SGD Document Classifier : Using important features only

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 将 scikit-learn 向量化器和词汇表与 gensim 一起使用在scikit-learn中使用多种功能使用scikit-learn处理分类特征在scikit-learn管道中使用gensim word2vec 使用scikit-learn TfIdf和gensim LDA scikit-learn使用什么距离函数来分类特征？将 Sentence-Bert 与 scikit-learn 中的其他功能一起使用使用scikit-learn处理太多分类功能在 scikit-learn 中使用 GridSearch 确定要删除/选择的功能 scikit-learn SGD文档分类器：仅使用重要功能

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM