如何使用scikit-learn對文本進行分類

Question

我想通過使用scikit-learn對兩個文本進行分類。 但是我想自己提取特征。 就像使用stop_words='english'來停止英語單詞列表一樣，在CountVectorizer上也是如此 。 如何設置我自己的單詞列表以讓CountVectorizer進行計數？

Answer 1

您可以在CountVectorizer中的stop_words參數中提供自己的停用詞列表，並且不會在scikit-learn的輸入文本中對不希望包含在內的詞進行計數。 例如，如果我不希望將諸如“ cat”，“ dog”和“ elephant”之類的詞用作標記，我將實例化CountVectorizer如下：

CountVectorizer(stop_words=['cat','dog', elephant'])

希望能有所幫助。

如何使用scikit-learn對文本進行分類

問題描述

1 個解決方案

解決方案1
0 已采納 2017-08-29 16:00:00

如何使用scikit-learn對文本進行分類

問題描述

1 個解決方案

解決方案1 0 已采納 2017-08-29 16:00:00

解決方案1
0 已采納 2017-08-29 16:00:00