簡體   English   中英

二元vs tfidf Ngram在情緒分析/分類任務中的特征比較?

[英]Comparison of binary vs tfidf Ngram features in sentiment analysis / classification tasks?

再簡單的問題:使用Ngrams(unigram / bigrams等)作為簡單的二進制特征或者更確切地說在支持Vectory Machine等ML模型中使用它們的Tfidf分數來執行情緒分析或文本分類/分類等NLP任務是否更好?

正如史蒂夫在評論中提到的那樣,最好的答案(以及ML風格的方式)就是嘗試!

話雖這么說,我會從二進制功能開始。 像SVM這樣的ML模型的目標是確定這些特征的“權重”,因此如果它有效,則不必提前設置此權重(使用TFIDF或其他)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM