使用Scikit Learn SVM准備用於文本分類的數據

Question

我正在嘗試從Scikit學習SVM，以對收集的推文進行分類。 因此，將有兩個類別，分別命名為A和B。現在，我將所有推文歸類為兩個文本文件“ A.txt”和“ B.txt”。 但是，我不確定Scikit Learn SVM要求輸入什么類型的數據。 我有一本以標簽（A和B）為鍵的字典，以及一個特征（字母組合）及其頻率作為值的字典。 抱歉，我真的是機器學習的新手，不確定我應該怎么做才能使SVM工作。 而且我發現SVM使用numpy.ndarray作為其數據輸入的類型。 我需要根據自己的數據創建一個嗎？ 應該是這樣嗎？

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

任何幫助表示贊賞。

Answer 1

查看有關文本特征提取的文檔。

也看一下文本分類的例子。

這里還有一個教程：

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特別是不要過多地關注SVM模型（特別是對內核模型更感興趣的sklearn.svm.SVC ，因此對於文本分類sklearn.svm.SVC那么感興趣）：簡單的Perceptron，LogisticRegression或Bernoulli天真貝葉斯模型可能會同時發揮作用訓練更快。

使用Scikit Learn SVM准備用於文本分類的數據

問題描述

1 個解決方案

解決方案1
21 2012-12-18 22:59:58

使用Scikit Learn SVM准備用於文本分類的數據

問題描述

1 個解決方案

解決方案1 21 2012-12-18 22:59:58

解決方案1
21 2012-12-18 22:59:58