簡體   English   中英

Scikit學習 - 如何使用SVM和隨機森林進行文本分類?

[英]Scikit learn - How to use SVM and Random Forest for text classification?

我有一組trainFeatures和一組帶有正面,中性和負面標簽的testFeatures

trainFeats = negFeats + posFeats + neutralFeats
testFeats  = negFeats + posFeats + neutralFeats

例如, trainFeats一個條目是

(['blue', 'yellow', 'green'], 'POSITIVE') 

對於測試功能列表也是如此,因此我為每個集指定了標簽。 我的問題是如何使用隨機森林分類器和SVM的scikit實現來獲得這個分類器的准確性與每個類的精確度和召回分數? 問題是我目前正在使用單詞作為功能,而從我讀到的這些分類器需要數字。 有沒有辦法在不改變功能的情況下實現我的目的? 非常感謝!

您可以查看這個scikit-learn教程 ,尤其是關於學習和預測如何創建和使用分類器的部分。 該示例使用SVM,但是使用RandomForestClassifier很簡單,因為所有分類器都實現了fitpredict方法。

使用文本功能時,您可以使用CountVectorizerDictVectorizer 看一下特征提取 ,特別是4.1.3節

您可以在此處找到用於對文本文檔進行分類的示例。

然后,您可以使用分類報告獲得分類器的精確度和召回率。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM