如何使用TfIdfVectorizer使用SciKitLearn對文檔進行分類？

Question

以下示例顯示了如何使用Sklearn 20新聞組數據訓練分類器。

>>> from sklearn.feature_extraction.text import TfidfVectorizer 
>>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
>>> newsgroups_train = fetch_20newsgroups(subset='train', ... categories=categories) 
>>> vectorizer = TfidfVectorizer() >>> vectors = vectorizer.fit_transform(newsgroups_train.data) 
>>> vectors.shape (2034, 34118)

但是，我有自己標記的語料庫，我想使用它。

獲得我自己的數據的tfidfvector后，我會訓練這樣的分類器嗎？

classif_nb = nltk.NaiveBayesClassifier.train(vectorizer)

回顧一下：我如何使用自己的語料庫而不是20個新組，但這里使用的方法相同？ 那么如何使用我的TFIDFVectorized語料庫來訓練分類器呢？

謝謝！

Answer 1

解決評論中的問題; 在一些分類任務中使用tfidf表示的整個基本過程你應該：

您將矢量化器擬合到訓練數據並將其保存在某個變量中，我們稱之為tfidf
您通過data = tfidf.transform（...）轉換訓練數據（沒有標簽，只是文本）
您使用some_classifier.fit（數據，標簽）來擬合模型（分類器），其中標簽與數據中的文檔順序相同
在測試期間，您對新數據使用tfidf.transform（...），並檢查模型的預測

Answer 2

一般來說，對於sklearn，流程是：

使用某些矢量化器將您的字符串數據轉換為數值，例如TfIDF，count等
適應和變換
將它傳遞給您選擇的分類器。

您沒有提到您的數據格式，但如果它是包含某些行的csv文件，則流程可能是：

閱讀每一行文字
預處理，如刪除停用詞等。
raw_data_list = [row1，row2，rown ...]
vectorizer = TfidfVectorizer（）
x_transformed = vectorizer.fit_transform（raw_data_list）
可以傳遞x_transformed以適合/訓練分類器的功能。

一旦你訓練了分類器，就可以調用預測新數據。 記得在將新數據傳遞給classif.predict之前，使用上面使用過的和適合的矢量化器將新數據轉換為與您訓練過的數據相同的格式。

如何使用TfIdfVectorizer使用SciKitLearn對文檔進行分類？

問題描述

2 個解決方案

解決方案1
8 已采納 2013-10-30 07:53:37

解決方案2
2 2013-10-30 04:14:15

如何使用TfIdfVectorizer使用SciKitLearn對文檔進行分類？

問題描述

2 個解決方案

解決方案1 8 已采納 2013-10-30 07:53:37

解決方案2 2 2013-10-30 04:14:15

解決方案1
8 已采納 2013-10-30 07:53:37

解決方案2
2 2013-10-30 04:14:15