Scikit學習 - 如何使用SVM和隨機森林進行文本分類？

Question

我有一組trainFeatures和一組帶有正面，中性和負面標簽的testFeatures ：

trainFeats = negFeats + posFeats + neutralFeats
testFeats  = negFeats + posFeats + neutralFeats

例如， trainFeats一個條目是

(['blue', 'yellow', 'green'], 'POSITIVE')

對於測試功能列表也是如此，因此我為每個集指定了標簽。 我的問題是如何使用隨機森林分類器和SVM的scikit實現來獲得這個分類器的准確性與每個類的精確度和召回分數？ 問題是我目前正在使用單詞作為功能，而從我讀到的這些分類器需要數字。 有沒有辦法在不改變功能的情況下實現我的目的？ 非常感謝！

Answer 1

您可以查看這個scikit-learn教程，尤其是關於學習和預測如何創建和使用分類器的部分。 該示例使用SVM，但是使用RandomForestClassifier很簡單，因為所有分類器都實現了fit和predict方法。

使用文本功能時，您可以使用CountVectorizer或DictVectorizer 。 看一下特征提取，特別是4.1.3節。

您可以在此處找到用於對文本文檔進行分類的示例。

然后，您可以使用分類報告獲得分類器的精確度和召回率。

Scikit學習 - 如何使用SVM和隨機森林進行文本分類？

問題描述

1 個解決方案

解決方案1
10 已采納 2014-02-23 23:23:44

Scikit學習 - 如何使用SVM和隨機森林進行文本分類？

問題描述

1 個解決方案

解決方案1 10 已采納 2014-02-23 23:23:44

解決方案1
10 已采納 2014-02-23 23:23:44