繁体   English   中英

如何使用scikit-learn对文本进行分类

[英]How to use scikit-learn to classify text

我想通过使用scikit-learn对两个文本进行分类。 但是我想自己提取特征。 就像使用stop_words='english'来停止英语单词列表一样,在CountVectorizer也是如此 如何设置我自己的单词列表以让CountVectorizer进行计数?

您可以在CountVectorizer中的stop_words参数中提供自己的停用词列表,并且不会在scikit-learn的输入文本中对不希望包含在内的词进行计数。 例如,如果我不希望将诸如“ cat”,“ dog”和“ elephant”之类的词用作标记,我将实例化CountVectorizer如下:

CountVectorizer(stop_words=['cat','dog', elephant'])

希望能有所帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM