簡體   English   中英

如何使用單詞袋或tf-idf對文本進行分類

[英]How to use bag of words or tf-idf to classify text

我有一個關於使用詞袋或類似方法進行分類的一般問題。

我有要分類的文本。這些類對我來說是已知的,並且我知道文本的每個句子都屬於一種類型的句子。例如,句子1應該是命令,句子2應該是新聞,等等。

所以我當時想使用n-gram進行特征提取,我的想法是n-gram單詞可以幫助機器找到正確的類別,但是使用Python來實現這個想法對我來說並不容易。無法將概念與實現聯系起來。 例如,我不確定是否必須提供所有可能屬於每個類別的POS標簽塊,或者機器可以找到它們。此外,我覺得n-gram在這種分析中可能會有所幫助。不知道如何

如果可以給我一些想法或告訴我應該進行此類分類的步驟,那就太好了。

最好

要在這種類型的分析中使用ngram,您可以提取文本中出現的所有ngram。 然后,您可以通過以下方式為每個句子中的每個ngram計算TF-IDF:

  • TF:表示一個ngram在句子中出現的次數。
  • IDF:代表包含該ngram的句子所占的比例。

這將為您提供一個TF-IDF度量,用於衡量“給定所有句子的每個句子的每個ngram的值”。 有了TF-IDF指標后,您就可以采用標准的監督方法來提供句子。

對於每個類,您還可以基於您的ngram,POS標記甚至依賴項解析的句子來構建語言模型。 然后,給定一個新句子,您可以計算從每種語言模型生成該句子的可能性。 同樣,您可以在有監督的學習方法中利用這些概率值。

我建議您查看以下文章:

1-有關TF-IDF的使用,請參見此處的5.1節

2-本文檔提供了使用語言模型的示例

祝好運 ;)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM