繁体   English   中英

中文文本的 TF-IDF 算法

[英]TF-IDF algorithm on chinese text

我正在对中文文本进行 TF-IDF,并在文本中搜索前 10 个常用词。
当我获得前 10 个词时,我会看到一些无意义的词,例如“成为”、“表示”等。
有什么方法只能得到有意义的单词吗?
我正在使用“jieba”将中文句子切割成单词

像“成为”、“表示”这样的词就是我们所说的停用词。 在许多情况下,它们是在句子中提供很少意义的常用词,例如英语中的“a”和“the”。

有时需要在执行分析之前删除这些停用词,尤其是对于 TF-IDF,因为它可能会导致您所看到的毫无意义的结果。

Jieba 似乎没有删除停用词的功能,但genediazjr收集了相当全面的中文停用词列表。 您可以在 TF-IDF 分析之前将其导入并从原始文本中删除这些停用词。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM