簡體   English   中英

r中的文本文件分類從KNN到SVM

[英]Text file classification in r from KNN to SVM

我的問題是我不明白如何去 SVM,實際上我在 KNN 中有 20% 的錯誤,所以我想改進這個統計數據,我處理我放入 VCorpus 的 html 文件,清理,放入 DTM,找出最常見的詞,然后我使用 1000 個文件來為 1 個文件整理好類(我有 7 個類)。 下面的代碼:

corpusEntrainement <- VCorpus(DirSource("training", recursive=T))

corpusCleanEntrainement <- nettoyage(corpusEntrainement)

motsFrequentsEntrainement <- findFreqTerms(corpusMatrice,lowfreq = 400, highfreq = 1200)

corpusDocReduitEntrainement <- DocumentTermMatrix(corpusCleanEntrainement,list(dictionary=motsFrequentsEntrainement))

dataReduitEntrainement <- as.matrix(corpusDocReduitEntrainement[, motsFrequentsEntrainement])

classesEntrainement<-c(rep(1,150),rep(2,150),rep(3,150),rep(4,150),rep(5,150),rep(6,150),rep(7,150))

matriceFinaleEntrainement <- cbind(dataReduitEntrainement,"classes"=classesEntrainement)

所以這就是我清理我的語料庫並獲得最終的 as.matrix 的方式,我如何從 svm 移動? 我認為代碼的其他部分很簡單,我只想在 SVM 中移動文檔。

謝謝 !

我假設您正在尋找如何訓練 SVM 模型(問題不是很清楚)。

library(e1071)

svmfit = svm(classes ~ ., data = matriceFinaleEntrainement)

請注意,您可以在之前將類轉換為因子:

classesEntrainement<-as.factor(c(rep(1,150),rep(2,150),rep(3,150),rep(4,150),rep(5,150),rep(6,150),rep(7,150)))

有關詳細信息,請參見本教程

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM