使用Gensim獲取TF-IDF分數

Question

我試圖根據他們的TF-IDF分數在語料庫中找到最重要的單詞。

按照https://radimrehurek.com/gensim/tut2.html上的示例進行操作。 基於

>>> for doc in corpus_tfidf:
...     print(doc)

TF-IDF得分在每次迭代中都會得到更新。 例如，

Word 0（基於https://radimrehurek.com/gensim/tut1.html的 “ 計算機 ”）的TF-IDF分數為0.5773（Doc＃1），0.4442（Doc＃2）。
Word 10（“ 圖表 ”）的TF-IDF得分為0.7071（Doc＃7），0.5080（Doc＃8），0.4588（Doc＃9）

所以這就是我目前如何獲得每個單詞的最終TF-IDF分數，

tfidf = gensim.models.tfidfmodel.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
d = {}
for doc in corpus_tfidf:
    for id, value in doc:
        word = dictionary.get(id)
        d[word] = value

有沒有更好的辦法？

提前致謝。

Answer 1

如何使用字典理解？

d = {dictionary.get(id): value for doc in corpus_tfidf for id, value in doc}

使用Gensim獲取TF-IDF分數

問題描述

1 個解決方案

解決方案1
5 2016-05-03 05:52:54

使用Gensim獲取TF-IDF分數

問題描述

1 個解決方案

解決方案1 5 2016-05-03 05:52:54

解決方案1
5 2016-05-03 05:52:54