繁体 English 中英

TF-IDF：我应该规范化文档长度吗

[英]tf-idf : should I do normalization of documents length

原文 2017-06-17 02:15:44 0 1 python/ normalization/ word/ tf-idf

当使用TF-IDF比较文档A时，BI知道文档的长度并不重要。 但是在这种情况下，与AB，AC相比，我认为文档B，C的长度应该相同。

例如日志：100字文档A：20字文档B：30字

Log-A的TF-IDF分数：0.xx Log-B的TF-IDF分数：0.xx

我应该对文件A，B进行标准化吗？ （如果比较目标不同，则可能是问题还是错误的结果）

1 个解决方案

通常，您想做的任何事情都会为您的数据提供最佳的交叉验证结果。

如果您要进行比较以比较余弦相似度，则必须将向量归一化作为计算的一部分，但是由于文档长度的变化，它不会影响分数。 许多通用文档检索系统认为较短的文档更有价值，但是通常在计算相似度后将其作为分数乘数来处理。

通常，使用ln（TF）代替原始TF分数作为归一化功能，因为看到术语1和2倍之间的差异比看到术语100和200倍之间的差异更重要； 它还可以避免过多使用术语来控制向量，并且通常更健壮。

tf-idf不同长度的文件

[英]tf-idf documents of different length

使用sklearn如何计算文档和查询之间的tf-idf余弦相似度？

[英]Using sklearn how do I calculate the tf-idf cosine similarity between documents and a query?

如何使用tf-idf对新文档进行分类？

[英]How to classify new documents with tf-idf?

scikit-learn - 我应该使用TF或TF-IDF模型吗？

[英]scikit-learn - Should I fit model with TF or TF-IDF?

TF-IDF function

[英]TF-IDF function

解释文档中单词的TF-IDF分数之和

[英]Interpreting the sum of TF-IDF scores of words across documents

使用sklearn查找文档中特定单词的tf-idf分数

[英]Find the tf-idf score of specific words in documents using sklearn

tf-idf 用于大量文档（>100k）

[英]tf-idf for large number of documents (>100k)

计算经过训练的文档集上的查询字符串的TF-IDF

[英]Calculating the TF-IDF of a query string over a trained set of documents

我应该如何使用TF-IDF对收集到的数据进行文本分类？

[英]How should I go about using TF-IDF for text classification on the data I collected?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 tf-idf不同长度的文件使用sklearn如何计算文档和查询之间的tf-idf余弦相似度？如何使用tf-idf对新文档进行分类？ scikit-learn - 我应该使用TF或TF-IDF模型吗？ TF-IDF function 解释文档中单词的TF-IDF分数之和使用sklearn查找文档中特定单词的tf-idf分数 tf-idf 用于大量文档（>100k）计算经过训练的文档集上的查询字符串的TF-IDF 我应该如何使用TF-IDF对收集到的数据进行文本分类？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM