簡體   English   中英

中文文本的 TF-IDF 算法

[英]TF-IDF algorithm on chinese text

我正在對中文文本進行 TF-IDF,並在文本中搜索前 10 個常用詞。
當我獲得前 10 個詞時,我會看到一些無意義的詞,例如“成為”、“表示”等。
有什么方法只能得到有意義的單詞嗎?
我正在使用“jieba”將中文句子切割成單詞

像“成為”、“表示”這樣的詞就是我們所說的停用詞。 在許多情況下,它們是在句子中提供很少意義的常用詞,例如英語中的“a”和“the”。

有時需要在執行分析之前刪除這些停用詞,尤其是對於 TF-IDF,因為它可能會導致您所看到的毫無意義的結果。

Jieba 似乎沒有刪除停用詞的功能,但genediazjr收集了相當全面的中文停用詞列表。 您可以在 TF-IDF 分析之前將其導入並從原始文本中刪除這些停用詞。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM