簡體   English   中英

語料庫 gensim 中的熱門術語

[英]top terms in corpus gensim

我正在使用 python package Gensim 進行聚類,我首先根據給定文本的標記化和詞形還原句子創建了一個字典,然后使用該字典使用以下代碼創建了語料庫:

 mydict = corpora.Dictionary(LemWords)
 corpus = [mydict.doc2bow(text) for text in LemWords]

我知道語料庫會包含單詞的 ID 以及它們在每個文檔中的頻率。 我想知道整個語料庫中給定單詞的頻率,以找到語料庫中的熱門術語。 我想知道是否有任何方法可以返回整個語料庫中術語的頻率

你可以試試這個:

import itertools
from collections import defaultdict

total_count = defaultdict(int)
for word_id, word_count in itertools.chain.from_iterable(corpus):
    total_count[word_id] += word_count

# Top ten words
sorted(total_count.items(), key=lambda x: x[1], reverse=True)[:10]

按照您的代碼:

 mydict = corpora.Dictionary(LemWords)
 corpus = [mydict.doc2bow(text) for text in LemWords]
    
 # word frequency by doc showing the word, if you want
 wordfreq_doc = [{mydict[idw]: freq for idw, freq in cp}
                 for cp in corpus]

 # word frequency for corpus
 wordfreq_all = Counter()
 for fwd in freq_w_doc: wordfreq_all.update(fwd)
 wordfreq_all = wordfreq_all.most_common()

我兩個都用。 第一個是連接我的字典數據框。 然后,我可以查看 LSA 是否運行良好,例如。 第二,我用它來查找停用詞和文本平衡。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM