[英]How to use bag of words or tf-idf to classify text
我有一個關於使用詞袋或類似方法進行分類的一般問題。
我有要分類的文本。這些類對我來說是已知的,並且我知道文本的每個句子都屬於一種類型的句子。例如,句子1應該是命令,句子2應該是新聞,等等。
所以我當時想使用n-gram進行特征提取,我的想法是n-gram單詞可以幫助機器找到正確的類別,但是使用Python來實現這個想法對我來說並不容易。無法將概念與實現聯系起來。 例如,我不確定是否必須提供所有可能屬於每個類別的POS標簽塊,或者機器可以找到它們。此外,我覺得n-gram在這種分析中可能會有所幫助。不知道如何
如果可以給我一些想法或告訴我應該進行此類分類的步驟,那就太好了。
最好
要在這種類型的分析中使用ngram,您可以提取文本中出現的所有ngram。 然后,您可以通過以下方式為每個句子中的每個ngram計算TF-IDF:
這將為您提供一個TF-IDF度量,用於衡量“給定所有句子的每個句子的每個ngram的值”。 有了TF-IDF指標后,您就可以采用標准的監督方法來提供句子。
對於每個類,您還可以基於您的ngram,POS標記甚至依賴項解析的句子來構建語言模型。 然后,給定一個新句子,您可以計算從每種語言模型生成該句子的可能性。 同樣,您可以在有監督的學習方法中利用這些概率值。
我建議您查看以下文章:
2-本文檔提供了使用語言模型的示例
祝好運 ;)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.