繁体 English 中英

Python Scikit学习：TF-IDF中的空词汇表

[英]Python Scikit-learn: Empty Vocabulary in TF-IDF

原文 2013-05-22 01:53:42 0 1 python/ scipy/ scikit-learn/ tf-idf

我正在使用该问题的最高投票答案（两个文本文档之间的相似性）给出的代码来计算文档之间的TF-IDF。 但是，我观察到，当我运行代码时未指定min_df的自定义值（在代码中为1）时，如果两个文档完全不同（这样它们中就没有共同的词），而不是接收TF- IDF值为0，我得到以下错误：

ValueError: empty vocabulary; training set may have contained only stop words or min_df (resp. max_df) may be too high (resp. too low).

有人可以告诉我如何摆脱这个错误吗？

1 个解决方案

默认情况下（在sklearn <= 0.13中）， min_df设置为min_df=2 ，这意味着每个单词必须至少出现在语料库的2个不同文档中，才能包含在矢量化程序的词汇表中。尽管这对于大型语料库来说是一个合理的选择，但要获得包含在玩具数据集中的任何内容（只有几句话）的限制都太严格了，因此您得到的错误消息非常明确。 在scikit-learn的开发分支中，将min_df=2默认值更改为min_df=1 ，以减少对尝试使用玩具数据集上具有默认参数值的库的新用户的困惑。

Scikit-TF-IDF空词汇

[英]Scikit - TF-IDF empty vocabulary

在scikit-learn tf-idf矩阵中获取文档名称

[英]Get the document name in scikit-learn tf-idf matrix

scikit-learn中TF-IDF向量的组特征

[英]Group features of TF-IDF vector in scikit-learn

scikit-learn - 我应该使用TF或TF-IDF模型吗？

[英]scikit-learn - Should I fit model with TF or TF-IDF?

使用scikit-learn和hand计算的tf-idf矩阵值的差异

[英]Difference in values of tf-idf matrix using scikit-learn and hand calculation

查找Tf-Idf使用scikit-learn从文档集中仅选择单词的分数

[英]Finding Tf-Idf Scores of only selected words from set of documents using scikit-learn

TF-IDF简单使用 - NLTK / Scikit Learn

[英]TF-IDF Simple Use - NLTK/Scikit Learn

在Gensim中为我的词汇计算tf-idf

[英]Calculate tf-idf in Gensim for my vocabulary

scikit学习中的TD / IDF

[英]TD/IDF in scikit-learn

Scikit Learn TfidfVectorizer：如何获得具有最高 tf-idf 分数的前 n 个术语

[英]Scikit Learn TfidfVectorizer : How to get top n terms with highest tf-idf score

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Scikit-TF-IDF空词汇在scikit-learn tf-idf矩阵中获取文档名称 scikit-learn中TF-IDF向量的组特征 scikit-learn - 我应该使用TF或TF-IDF模型吗？使用scikit-learn和hand计算的tf-idf矩阵值的差异查找Tf-Idf使用scikit-learn从文档集中仅选择单词的分数 TF-IDF简单使用 - NLTK / Scikit Learn 在Gensim中为我的词汇计算tf-idf scikit学习中的TD / IDF Scikit Learn TfidfVectorizer：如何获得具有最高 tf-idf 分数的前 n 个术语

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM