簡體   English   中英

如何減少gensim中的字典大小?

[英]How to reduce dictionary size in gensim?

我正在使用20newsgroups數據集上的python gensim包來擬合Hierarchical Dirichlet Process(HDP)主題模型,我發現我的主題信息量不大(頂級詞概率非常小)。

我正在使用標准文本預處理,包括標記化,停用詞刪除和詞干提取。 我在想減少字典大小可以幫助生成更有意義的主題。 有哪些方法可以減少gensim中的字典大小?

我發現以下代碼有助於顯着減少字典大小並實現更有意義的主題:

dictionary = corpora.Dictionary(docs, prune_at=num_features)
dictionary.filter_extremes(no_below=10,no_above=0.5, keep_n=num_features)
dictionary.compactify()

減少字典大小的第一次嘗試是prune_at參數,第二次嘗試是在gensim字典中定義的filter_extremes()函數。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM