如何使用scikit-learn对文本进行分类

Question

我想通过使用scikit-learn对两个文本进行分类。 但是我想自己提取特征。 就像使用stop_words='english'来停止英语单词列表一样，在CountVectorizer上也是如此 。 如何设置我自己的单词列表以让CountVectorizer进行计数？

Answer 1

您可以在CountVectorizer中的stop_words参数中提供自己的停用词列表，并且不会在scikit-learn的输入文本中对不希望包含在内的词进行计数。 例如，如果我不希望将诸如“ cat”，“ dog”和“ elephant”之类的词用作标记，我将实例化CountVectorizer如下：

CountVectorizer(stop_words=['cat','dog', elephant'])

希望能有所帮助。

如何使用scikit-learn对文本进行分类

问题描述

1 个解决方案

解决方案1
0 已采纳 2017-08-29 16:00:00

如何使用scikit-learn对文本进行分类

问题描述

1 个解决方案

解决方案1 0 已采纳 2017-08-29 16:00:00

解决方案1
0 已采纳 2017-08-29 16:00:00