繁体   English   中英

查找Tf-Idf使用scikit-learn从文档集中仅选择单词的分数

[英]Finding Tf-Idf Scores of only selected words from set of documents using scikit-learn

我有一组文件(存储为.txt文件)。 我还有一些选定单词的python字典。 我想只为这些单词分配tf-idf分数,而不是从文档集中分配所有单词。 如何使用scikit-learn或任何其他库来完成?

我已经提到了这篇博文,但它提供了大量的完整词汇。

您可以使用CountVectorizer执行此操作, CountVectorizer将文档扫描为文本并转换为术语文档矩阵,并在矩阵上使用TfidfTrasnformer

这两个步骤也可以与TfidfVectorizer一起组合完成。

它们位于sklearn.feature_extraction.text模块[ link ]中。

两个进程都将返回相同的稀疏矩阵表示,我假设您可能会通过TruncatedSVD进行SVD​​变换以获得更小的密集矩阵。

你当然也可以自己做,这需要保留两张地图,每张文件一张,一张整体,你可以计算条款。 这就是他们在引擎盖下运作的方式。

这个页面有一些很好的例子。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM