簡體   English   中英

如何使用csr_matrix初始化gensim語料庫變量?

[英]How do you initialize a gensim corpus variable with a csr_matrix?

我有X作為csr_matrix,我使用scikit的tfidf矢量化器獲得,y是一個數組

我的計划是使用LDA創建功能,但是,我沒有找到如何使用X作為csr_matrix初始化gensim的語料庫變量。 換句話說,我不想下載gensim文檔中顯示的語料庫,也不想將X轉換為密集矩陣,因為它會消耗大量內存並且計算機可能會掛起。

簡而言之,我的問題如下,

  1. 如果我有一個代表整個語料庫的csr_matrix(稀疏),你如何初始化gensim語料庫?
  2. 你如何使用LDA提取功能?

Gensim有一個半隱藏的功能,可以為你做這件事:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

“class gensim.matutils.Sparse2Corpus(sparse,documents_columns = True)將scipy.sparse格式的矩陣轉換為流式gensim語料庫。”

我使用用CountVectorizer提取的語料庫,然后加載到gensim中,我取得了一些成功。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM