簡體 English 中英

如何使用單詞袋或tf-idf對文本進行分類

[英]How to use bag of words or tf-idf to classify text

原文 2016-12-22 12:19:17 9 1 python/ machine-learning/ nlp/ text-classification

我有一個關於使用詞袋或類似方法進行分類的一般問題。

我有要分類的文本。這些類對我來說是已知的，並且我知道文本的每個句子都屬於一種類型的句子。例如，句子1應該是命令，句子2應該是新聞，等等。

所以我當時想使用n-gram進行特征提取，我的想法是n-gram單詞可以幫助機器找到正確的類別，但是使用Python來實現這個想法對我來說並不容易。無法將概念與實現聯系起來。例如，我不確定是否必須提供所有可能屬於每個類別的POS標簽塊，或者機器可以找到它們。此外，我覺得n-gram在這種分析中可能會有所幫助。不知道如何

如果可以給我一些想法或告訴我應該進行此類分類的步驟，那就太好了。

最好

1 個解決方案

要在這種類型的分析中使用ngram，您可以提取文本中出現的所有ngram。 然后，您可以通過以下方式為每個句子中的每個ngram計算TF-IDF：

TF：表示一個ngram在句子中出現的次數。
IDF：代表包含該ngram的句子所占的比例。

這將為您提供一個TF-IDF度量，用於衡量“給定所有句子的每個句子的每個ngram的值”。 有了TF-IDF指標后，您就可以采用標准的監督方法來提供句子。

對於每個類，您還可以基於您的ngram，POS標記甚至依賴項解析的句子來構建語言模型。 然后，給定一個新句子，您可以計算從每種語言模型生成該句子的可能性。 同樣，您可以在有監督的學習方法中利用這些概率值。

我建議您查看以下文章：

1-有關TF-IDF的使用，請參見此處的5.1節

2-本文檔提供了使用語言模型的示例

祝好運 ;）

如何使用tf-idf對新文檔進行分類？

[英]How to classify new documents with tf-idf?

字符串相似度TF-IDF單詞或Word2vec的袋

[英]String similarity TF-IDF Bag of words or Word2vec

TF-IDF如何產生用於機器學習的功能？一袋文字有什么不同？

[英]How does TF-IDF produce features for machine-learning ? What is different from a bag of words?

如何獲得單詞的 TF-IDF 分數？

[英]How to get TF-IDF scores for the words?

如何將 tf-idf 應用於文本行

[英]How to apply tf-idf to rows of text

如何用gensim過濾掉語料庫中低tf-idf的單詞？

[英]How to filter out words with low tf-idf in a corpus with gensim?

TF-IDF如何僅獲取單詞列表

[英]TF-IDF how to takes only a list of words

如何獲得最重要單詞的 TF-IDF 分數？

[英]How to get the TF-IDF scores as well for the most important words?

用sklearn獲取單詞的tf-idf權重

[英]Obtain tf-idf weights of words with sklearn

查找具有指定 tf-idf 分數的單詞

[英]Find the words with specified tf-idf scores

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用tf-idf對新文檔進行分類？字符串相似度TF-IDF單詞或Word2vec的袋 TF-IDF如何產生用於機器學習的功能？一袋文字有什么不同？如何獲得單詞的 TF-IDF 分數？如何將 tf-idf 應用於文本行如何用gensim過濾掉語料庫中低tf-idf的單詞？ TF-IDF如何僅獲取單詞列表如何獲得最重要單詞的 TF-IDF 分數？用sklearn獲取單詞的tf-idf權重查找具有指定 tf-idf 分數的單詞

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM