[英]How to filter out words in a corpus from a constrained vocabulary with gensim?
我正在使用gensim進行主題建模。 我創建了一個語料庫
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]
其中trimmedTextTokens是刪除停用詞的結果。 現在,我想從語料庫中篩選出不在受限制或構造的詞匯表中的術語。 有任何想法嗎? 謝謝!!
假設您的限制詞匯表位於名為restrictedVocabularyList
的變量中,則可以執行以下操作:
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.