簡體   English   中英

使用Scikit Learn SVM准備用於文本分類的數據

[英]Prepare data for text classification using Scikit Learn SVM

我正在嘗試從Scikit學習SVM,以對收集的推文進行分類。 因此,將有兩個類別,分別命名為A和B。現在,我將所有推文歸類為兩個文本文件“ A.txt”和“ B.txt”。 但是,我不確定Scikit Learn SVM要求輸入什么類型的數據。 我有一本以標簽(A和B)為鍵的字典,以及一個特征(字母組合)及其頻率作為值的字典。 抱歉,我真的是機器學習的新手,不確定我應該怎么做才能使SVM工作。 而且我發現SVM使用numpy.ndarray作為其數據輸入的類型。 我需要根據自己的數據創建一個嗎? 應該是這樣嗎?

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

任何幫助表示贊賞。

查看有關文本特征提取的文檔。

也看一下文本分類的例子

這里還有一個教程:

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特別是不要過多地關注SVM模型(特別是對內核模型更感興趣的sklearn.svm.SVC ,因此對於文本分類sklearn.svm.SVC那么感興趣):簡單的Perceptron,LogisticRegression或Bernoulli天真貝葉斯模型可能會同時發揮作用訓練更快。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM