[英]Text file classification in r from KNN to SVM
我的問題是我不明白如何去 SVM,實際上我在 KNN 中有 20% 的錯誤,所以我想改進這個統計數據,我處理我放入 VCorpus 的 html 文件,清理,放入 DTM,找出最常見的詞,然后我使用 1000 個文件來為 1 個文件整理好類(我有 7 個類)。 下面的代碼:
corpusEntrainement <- VCorpus(DirSource("training", recursive=T))
corpusCleanEntrainement <- nettoyage(corpusEntrainement)
motsFrequentsEntrainement <- findFreqTerms(corpusMatrice,lowfreq = 400, highfreq = 1200)
corpusDocReduitEntrainement <- DocumentTermMatrix(corpusCleanEntrainement,list(dictionary=motsFrequentsEntrainement))
dataReduitEntrainement <- as.matrix(corpusDocReduitEntrainement[, motsFrequentsEntrainement])
classesEntrainement<-c(rep(1,150),rep(2,150),rep(3,150),rep(4,150),rep(5,150),rep(6,150),rep(7,150))
matriceFinaleEntrainement <- cbind(dataReduitEntrainement,"classes"=classesEntrainement)
所以這就是我清理我的語料庫並獲得最終的 as.matrix 的方式,我如何從 svm 移動? 我認為代碼的其他部分很簡單,我只想在 SVM 中移動文檔。
謝謝 !
我假設您正在尋找如何訓練 SVM 模型(問題不是很清楚)。
library(e1071)
svmfit = svm(classes ~ ., data = matriceFinaleEntrainement)
請注意,您可以在之前將類轉換為因子:
classesEntrainement<-as.factor(c(rep(1,150),rep(2,150),rep(3,150),rep(4,150),rep(5,150),rep(6,150),rep(7,150)))
有關詳細信息,請參見本教程。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.