[英]How to use scikit-learn to classify text
我想通过使用scikit-learn对两个文本进行分类。 但是我想自己提取特征。 就像使用stop_words='english'
来停止英语单词列表一样,在CountVectorizer上也是如此 。 如何设置我自己的单词列表以让CountVectorizer进行计数?
您可以在CountVectorizer中的stop_words参数中提供自己的停用词列表,并且不会在scikit-learn的输入文本中对不希望包含在内的词进行计数。 例如,如果我不希望将诸如“ cat”,“ dog”和“ elephant”之类的词用作标记,我将实例化CountVectorizer如下:
CountVectorizer(stop_words=['cat','dog', elephant'])
希望能有所帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.