簡體 English 中英

中文文本的 TF-IDF 算法

[英]TF-IDF algorithm on chinese text

原文 2020-07-23 09:09:01 1 1 python/ tf-idf/ tfidfvectorizer

我正在對中文文本進行 TF-IDF，並在文本中搜索前 10 個常用詞。
當我獲得前 10 個詞時，我會看到一些無意義的詞，例如“成為”、“表示”等。
有什么方法只能得到有意義的單詞嗎？
我正在使用“jieba”將中文句子切割成單詞

像“成為”、“表示”這樣的詞就是我們所說的停用詞。 在許多情況下，它們是在句子中提供很少意義的常用詞，例如英語中的“a”和“the”。

有時需要在執行分析之前刪除這些停用詞，尤其是對於 TF-IDF，因為它可能會導致您所看到的毫無意義的結果。

Jieba 似乎沒有刪除停用詞的功能，但genediazjr收集了相當全面的中文停用詞列表。 您可以在 TF-IDF 分析之前將其導入並從原始文本中刪除這些停用詞。

[英]How to apply tf-idf to rows of text

[英]tf-idf for text cluster-analysis

[英]TF-IDF function

[英]KNN for Text Classification using TF-IDF scores

[英]How to use bag of words or tf-idf to classify text

[英]finding the number of clusters in a vectorized text document with sklearn tf-idf

[英]Reusing an sklearn text classification model with tf-idf feature selection

[英]TF-IDF by string line rather than whole text document

[英]Python - Using TF-IDF to summarise dataframe text column

[英]TF-IDF Matrix In Python

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何將 tf-idf 應用於文本行 tf-idf 用於文本聚類分析 TF-IDF function 使用 TF-IDF 分數進行文本分類的 KNN 如何使用單詞袋或tf-idf對文本進行分類使用sklearn tf-idf查找矢量化文本文檔中的簇數通過TF-IDF功能選擇重用sklearn文本分類模型 TF-IDF按字符串行而不是全文文件 Python - 使用 TF-IDF 匯總數據框文本列 Python中的TF-IDF矩陣

相關標簽