[英]How to reduce dictionary size in gensim?
我正在使用20newsgroups數據集上的python gensim包來擬合Hierarchical Dirichlet Process(HDP)主題模型,我發現我的主題信息量不大(頂級詞概率非常小)。
我正在使用標准文本預處理,包括標記化,停用詞刪除和詞干提取。 我在想減少字典大小可以幫助生成更有意義的主題。 有哪些方法可以減少gensim中的字典大小?
我發現以下代碼有助於顯着減少字典大小並實現更有意義的主題:
dictionary = corpora.Dictionary(docs, prune_at=num_features)
dictionary.filter_extremes(no_below=10,no_above=0.5, keep_n=num_features)
dictionary.compactify()
減少字典大小的第一次嘗試是prune_at參數,第二次嘗試是在gensim字典中定義的filter_extremes()函數。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.