如何在 gensim 中加載預訓練模型並用它訓練 doc2vec？

Question

我准備好了我已經訓練過的 word2vec 模型。 我已將其序列化為 CSV 文件：

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

我想知道的是如何在gensim加載該詞向量模型並使用它來訓練段落或 doc2vec 模型。

這個Doc2Vec 教程說我可以以“ #C # C text format ”的形式加載模型，但我不知道這實際上意味着什么。 什么是“C 文本格式”，但更重要的是：

如何加載我的 word2vec 模型並將其用於 doc2vec 訓練？

如何從我的 word2vec 模型構建詞匯表？

Answer 1

Doc2Vec 不需要詞向量作為輸入：它將創建在其自身訓練期間需要的任何詞向量。 （還有一些模式，比如純 DBOW—— dm=0, dbow_words=0根本不使用或訓練詞向量。）

用詞向量播種 Doc2Vec 模型可能會有所幫助或有害； 沒有太多理論或已發表的結果可以提供指導。 Word2Vec 有一種實驗方法intersect_word2vec_format() ，可以將 word2vec-c-format 向量合並到具有現有詞匯表的模型中，但您需要查看源代碼才能真正理解其假設：

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

如何在 gensim 中加載預訓練模型並用它訓練 doc2vec？

問題描述

1 個解決方案

解決方案1
1 已采納 2016-07-29 02:38:08

如何在 gensim 中加載預訓練模型並用它訓練 doc2vec？

問題描述

1 個解決方案

解決方案1 1 已采納 2016-07-29 02:38:08

解決方案1
1 已采納 2016-07-29 02:38:08