簡體   English   中英

如何使用scikit-learn對文本進行分類

[英]How to use scikit-learn to classify text

我想通過使用scikit-learn對兩個文本進行分類。 但是我想自己提取特征。 就像使用stop_words='english'來停止英語單詞列表一樣,在CountVectorizer也是如此 如何設置我自己的單詞列表以讓CountVectorizer進行計數?

您可以在CountVectorizer中的stop_words參數中提供自己的停用詞列表,並且不會在scikit-learn的輸入文本中對不希望包含在內的詞進行計數。 例如,如果我不希望將諸如“ cat”,“ dog”和“ elephant”之類的詞用作標記,我將實例化CountVectorizer如下:

CountVectorizer(stop_words=['cat','dog', elephant'])

希望能有所幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM