簡體   English   中英

使用scikit-learn TfIdf和gensim LDA

[英]Use scikit-learn TfIdf with gensim LDA

我在scikit中使用了各種版本的TFIDF來學習一些文本數據的建模。

vectorizer = TfidfVectorizer(min_df=1,stop_words='english')

生成的數據X采用以下格式:

<rowsxcolumns sparse matrix of type '<type 'numpy.float64'>'
    with xyz stored elements in Compressed Sparse Row format>

我想嘗試使用LDA作為減少稀疏矩陣維數的方法。 有沒有一種簡單的方法可以將NumPy稀疏矩陣X輸入到gensim LDA模型中?

lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=100)

我可以忽略scikit並按照gensim教程概述的方式,但我喜歡scikit矢量化器及其所有參數的簡單性。

http://radimrehurek.com/gensim/matutils.html

class gensim.matutils.Sparse2Corpus(sparse, documents_columns=True)

      Convert a matrix in scipy.sparse format into a streaming gensim corpus.

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM