[英]How do you initialize a gensim corpus variable with a csr_matrix?
我有X作為csr_matrix,我使用scikit的tfidf矢量化器獲得,y是一個數組
我的計划是使用LDA創建功能,但是,我沒有找到如何使用X作為csr_matrix初始化gensim的語料庫變量。 換句話說,我不想下載gensim文檔中顯示的語料庫,也不想將X轉換為密集矩陣,因為它會消耗大量內存並且計算機可能會掛起。
簡而言之,我的問題如下,
Gensim有一個半隱藏的功能,可以為你做這件事:
http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus
“class gensim.matutils.Sparse2Corpus(sparse,documents_columns = True)將scipy.sparse格式的矩陣轉換為流式gensim語料庫。”
我使用用CountVectorizer提取的語料庫,然后加載到gensim中,我取得了一些成功。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.