簡體 English 中英

在Scikit中進行文本分類時是否需要標准化數據

[英]Do I need to standardize data when doing text classification in Scikit

原文 2015-05-30 12:18:00 4 1 python/ r/ machine-learning/ nlp/ scikit-learn

我正在使用Scikit.開發垃圾郵件過濾器Scikit. 這是我遵循的步驟：

Xdata = ["This is spam" , "This is Ham" , "This is spam again"]

Matrix = Countvectorizer (XData) 。 矩陣將包含所有文檔中每個單詞的計數。 所以Matrix [i] [j]會給我文件i中單詞j計數
Matrix_idfX = TFIDFVectorizer(Matrix) 。 它將標准化分數。
Matrix_idfX_Select = SelectKBest( Matrix_IdfX , 500) 。 它將減少矩陣到500個最佳分數列
Multinomial.train( Matrix_Idfx_Select)

現在是我的問題，是否需要通過上述四個步驟中的任何一個執行標准化或標准化 ？ 如果是，那么在哪一步之后為什么？

謝謝

1 個解決方案

您可能需要在標記化（詞干或詞根化）之前對單詞進行標准化。 例如，請參閱相關問題。

注意：您不需要，因為“ TfidfVectorizer在單個模型中結合了CountVectorizer和TfidfTransformer的所有選項”（ scikit docs ）還請注意，“雖然tf–idf歸一化通常非常有用，但在某些情況下，二進制發生標記可能提供更好的功能，這可以通過使用CountVectorizer的二進制參數來實現，尤其是某些估算器（例如Bernoulli Naive Bayes）可以顯式地對離散的布爾型隨機變量進行建模；而且，很短的文本可能會有嘈雜的tf–idf值，而二進制出現信息更加穩定。” （相同的文檔）

為SciKit分類准備文本數據

[英]Preparing text data for SciKit classification

使用Scikit Learn SVM准備用於文本分類的數據

[英]Prepare data for text classification using Scikit Learn SVM

如何使用scikit-learn對二進制數據集進行分類？

[英]How to do classification in binary data set using scikit-learn?

使用Scikit學習進行文本分類

[英]Text classification with Scikit-learn

如何標准化我的數據，使平均值為 0？

[英]How do I standardize my data so that the Mean is 0?

如何標准化矩陣？

[英]How do I standardize a matrix?

使用SciKit-learn和大型數據集進行文本分類

[英]text classification with SciKit-learn and a large dataset

文本分類任務的最佳scikit分類器

[英]Best scikit classifier for text classification task

scikit的標准方法是什么 - 學習安排文本數據進行文本分類？

[英]What is the standard way in scikit-learn to arrange textual data for text classification?

如何使用預訓練模型對新數據進行分類 - Python 文本分類（NLTK 和 Scikit）

[英]How to classify new data using a pre-trained model - Python Text Classification (NLTK and Scikit)

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 為SciKit分類准備文本數據使用Scikit Learn SVM准備用於文本分類的數據如何使用scikit-learn對二進制數據集進行分類？使用Scikit學習進行文本分類如何標准化我的數據，使平均值為 0？如何標准化矩陣？使用SciKit-learn和大型數據集進行文本分類文本分類任務的最佳scikit分類器 scikit的標准方法是什么 - 學習安排文本數據進行文本分類？如何使用預訓練模型對新數據進行分類 - Python 文本分類（NLTK 和 Scikit）

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM