繁体 English 中英

中文文本的 TF-IDF 算法

[英]TF-IDF algorithm on chinese text

原文 2020-07-23 09:09:01 6 1 python/ tf-idf/ tfidfvectorizer

我正在对中文文本进行 TF-IDF，并在文本中搜索前 10 个常用词。
当我获得前 10 个词时，我会看到一些无意义的词，例如“成为”、“表示”等。
有什么方法只能得到有意义的单词吗？
我正在使用“jieba”将中文句子切割成单词

像“成为”、“表示”这样的词就是我们所说的停用词。 在许多情况下，它们是在句子中提供很少意义的常用词，例如英语中的“a”和“the”。

有时需要在执行分析之前删除这些停用词，尤其是对于 TF-IDF，因为它可能会导致您所看到的毫无意义的结果。

Jieba 似乎没有删除停用词的功能，但genediazjr收集了相当全面的中文停用词列表。 您可以在 TF-IDF 分析之前将其导入并从原始文本中删除这些停用词。

[英]How to apply tf-idf to rows of text

[英]tf-idf for text cluster-analysis

[英]TF-IDF function

[英]KNN for Text Classification using TF-IDF scores

[英]How to use bag of words or tf-idf to classify text

[英]finding the number of clusters in a vectorized text document with sklearn tf-idf

[英]Reusing an sklearn text classification model with tf-idf feature selection

[英]TF-IDF by string line rather than whole text document

[英]Python - Using TF-IDF to summarise dataframe text column

[英]TF-IDF Matrix In Python

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何将 tf-idf 应用于文本行 tf-idf 用于文本聚类分析 TF-IDF function 使用 TF-IDF 分数进行文本分类的 KNN 如何使用单词袋或tf-idf对文本进行分类使用sklearn tf-idf查找矢量化文本文档中的簇数通过TF-IDF功能选择重用sklearn文本分类模型 TF-IDF按字符串行而不是全文文件 Python - 使用 TF-IDF 汇总数据框文本列 Python中的TF-IDF矩阵

相关标签