繁体 English 中英

查找Tf-Idf使用scikit-learn从文档集中仅选择单词的分数

[英]Finding Tf-Idf Scores of only selected words from set of documents using scikit-learn

原文 2016-03-16 16:38:51 9 1 python/ scipy/ nlp/ scikit-learn/ tf-idf

我有一组文件（存储为.txt文件）。 我还有一些选定单词的python字典。 我想只为这些单词分配tf-idf分数，而不是从文档集中分配所有单词。 如何使用scikit-learn或任何其他库来完成？

我已经提到了这篇博文，但它提供了大量的完整词汇。

1 个解决方案

您可以使用CountVectorizer执行此操作， CountVectorizer将文档扫描为文本并转换为术语文档矩阵，并在矩阵上使用TfidfTrasnformer 。

这两个步骤也可以与TfidfVectorizer一起组合完成。

它们位于sklearn.feature_extraction.text模块[ link ]中。

两个进程都将返回相同的稀疏矩阵表示，我假设您可能会通过TruncatedSVD进行SVD变换以获得更小的密集矩阵。

你当然也可以自己做，这需要保留两张地图，每张文件一张，一张整体，你可以计算条款。 这就是他们在引擎盖下运作的方式。

这个页面有一些很好的例子。

在scikit-learn tf-idf矩阵中获取文档名称

[英]Get the document name in scikit-learn tf-idf matrix

Python Scikit学习：TF-IDF中的空词汇表

[英]Python Scikit-learn: Empty Vocabulary in TF-IDF

scikit-learn中TF-IDF向量的组特征

[英]Group features of TF-IDF vector in scikit-learn

使用scikit-learn和hand计算的tf-idf矩阵值的差异

[英]Difference in values of tf-idf matrix using scikit-learn and hand calculation

解释文档中单词的TF-IDF分数之和

[英]Interpreting the sum of TF-IDF scores of words across documents

Scikit Learn - 从特征数组的语料库中计算TF-IDF，而不是从原始文档的语料库中计算TF-IDF

[英]Scikit Learn - Calculating TF-IDF from a corpus of arrays of features instead of from a corpus of raw documents

scikit-learn - 我应该使用TF或TF-IDF模型吗？

[英]scikit-learn - Should I fit model with TF or TF-IDF?

使用Gensim获取TF-IDF分数

[英]Getting TF-IDF Scores Of Words Using Gensim

查找具有指定 tf-idf 分数的单词

[英]Find the words with specified tf-idf scores

如何获得单词的 TF-IDF 分数？

[英]How to get TF-IDF scores for the words?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在scikit-learn tf-idf矩阵中获取文档名称 Python Scikit学习：TF-IDF中的空词汇表 scikit-learn中TF-IDF向量的组特征使用scikit-learn和hand计算的tf-idf矩阵值的差异解释文档中单词的TF-IDF分数之和 Scikit Learn - 从特征数组的语料库中计算TF-IDF，而不是从原始文档的语料库中计算TF-IDF scikit-learn - 我应该使用TF或TF-IDF模型吗？使用Gensim获取TF-IDF分数查找具有指定 tf-idf 分数的单词如何获得单词的 TF-IDF 分数？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM