[英]Scikit learn - How to use SVM and Random Forest for text classification?
我有一組trainFeatures
和一組帶有正面,中性和負面標簽的testFeatures
:
trainFeats = negFeats + posFeats + neutralFeats
testFeats = negFeats + posFeats + neutralFeats
例如, trainFeats
一個條目是
(['blue', 'yellow', 'green'], 'POSITIVE')
對於測試功能列表也是如此,因此我為每個集指定了標簽。 我的問題是如何使用隨機森林分類器和SVM的scikit實現來獲得這個分類器的准確性與每個類的精確度和召回分數? 問題是我目前正在使用單詞作為功能,而從我讀到的這些分類器需要數字。 有沒有辦法在不改變功能的情況下實現我的目的? 非常感謝!
您可以查看這個scikit-learn教程 ,尤其是關於學習和預測如何創建和使用分類器的部分。 該示例使用SVM,但是使用RandomForestClassifier很簡單,因為所有分類器都實現了fit
和predict
方法。
使用文本功能時,您可以使用CountVectorizer或DictVectorizer 。 看一下特征提取 ,特別是4.1.3節 。
您可以在此處找到用於對文本文檔進行分類的示例。
然后,您可以使用分類報告獲得分類器的精確度和召回率。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.