簡體   English   中英

如何使用gensim從受約束的詞匯中過濾出語料庫中的單詞?

[英]How to filter out words in a corpus from a constrained vocabulary with gensim?

我正在使用gensim進行主題建模。 我創建了一個語料庫

wordDict = corpora.Dictionary(trimmedTextTokens)

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]

其中trimmedTextTokens是刪除停用詞的結果。 現在,我想從語料庫中篩選出不在受限制或構造的詞匯表中的術語。 有任何想法嗎? 謝謝!!

假設您的限制詞匯表位於名為restrictedVocabularyList的變量中,則可以執行以下操作:

wordDict = corpora.Dictionary(trimmedTextTokens)

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM