簡體   English   中英

如何在 gensim 中加載預訓練模型並用它訓練 doc2vec?

[英]How to load pre-trained model with in gensim and train doc2vec with it?

我准備好了我已經訓練過的 word2vec 模型。 我已將其序列化為 CSV 文件:

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

我想知道的是如何在gensim加載該詞向量模型並使用它來訓練段落或 doc2vec 模型。

這個Doc2Vec 教程說我可以以“ #C # C text format ”的形式加載模型,但我不知道這實際上意味着什么。 什么是“C 文本格式”,但更重要的是:

  • 如何加載我的 word2vec 模型並將其用於 doc2vec 訓練?

如何從我的 word2vec 模型構建詞匯表?

Doc2Vec 不需要詞向量作為輸入:它將創建在其自身訓練期間需要的任何詞向量。 (還有一些模式,比如純 DBOW—— dm=0, dbow_words=0根本不使用或訓練詞向量。)

用詞向量播種 Doc2Vec 模型可能會有所幫助或有害; 沒有太多理論或已發表的結果可以提供指導。 Word2Vec 有一種實驗方法intersect_word2vec_format() ,可以將 word2vec-c-format 向量合並到具有現有詞匯表的模型中,但您需要查看源代碼才能真正理解其假設:

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM