簡體   English   中英

使用Gensim獲取TF-IDF分數

[英]Getting TF-IDF Scores Of Words Using Gensim

我試圖根據他們的TF-IDF分數在語料庫中找到最重要的單詞。

按照https://radimrehurek.com/gensim/tut2.html上的示例進行操作。 基於

>>> for doc in corpus_tfidf:
...     print(doc)

TF-IDF得分在每次迭代中都會得到更新。 例如,

  • Word 0(基於https://radimrehurek.com/gensim/tut1.html的計算機 ”)的TF-IDF分數為0.5773(Doc#1),0.4442(Doc#2)。
  • Word 10(“ 圖表 ”)的TF-IDF得分為0.7071(Doc#7),0.5080(Doc#8),0.4588(Doc#9)

所以這就是我目前如何獲得每個單詞的最終TF-IDF分數,

tfidf = gensim.models.tfidfmodel.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
d = {}
for doc in corpus_tfidf:
    for id, value in doc:
        word = dictionary.get(id)
        d[word] = value

有沒有更好的辦法?

提前致謝。

如何使用字典理解?

d = {dictionary.get(id): value for doc in corpus_tfidf for id, value in doc}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM