使用Gensim获取TF-IDF分数

Question

我试图根据他们的TF-IDF分数在语料库中找到最重要的单词。

按照https://radimrehurek.com/gensim/tut2.html上的示例进行操作。 基于

>>> for doc in corpus_tfidf:
...     print(doc)

TF-IDF得分在每次迭代中都会得到更新。 例如，

Word 0（基于https://radimrehurek.com/gensim/tut1.html的 “ 计算机 ”）的TF-IDF分数为0.5773（Doc＃1），0.4442（Doc＃2）。
Word 10（“ 图表 ”）的TF-IDF得分为0.7071（Doc＃7），0.5080（Doc＃8），0.4588（Doc＃9）

所以这就是我目前如何获得每个单词的最终TF-IDF分数，

tfidf = gensim.models.tfidfmodel.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
d = {}
for doc in corpus_tfidf:
    for id, value in doc:
        word = dictionary.get(id)
        d[word] = value

有没有更好的办法？

提前致谢。

Answer 1

如何使用字典理解？

d = {dictionary.get(id): value for doc in corpus_tfidf for id, value in doc}

使用Gensim获取TF-IDF分数

问题描述

1 个解决方案

解决方案1
5 2016-05-03 05:52:54

使用Gensim获取TF-IDF分数

问题描述

1 个解决方案

解决方案1 5 2016-05-03 05:52:54

解决方案1
5 2016-05-03 05:52:54