如何在 gensim 中加载预训练模型并用它训练 doc2vec？

Question

我准备好了我已经训练过的 word2vec 模型。 我已将其序列化为 CSV 文件：

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

我想知道的是如何在gensim加载该词向量模型并使用它来训练段落或 doc2vec 模型。

这个Doc2Vec 教程说我可以以“ #C # C text format ”的形式加载模型，但我不知道这实际上意味着什么。 什么是“C 文本格式”，但更重要的是：

如何加载我的 word2vec 模型并将其用于 doc2vec 训练？

如何从我的 word2vec 模型构建词汇表？

Answer 1

Doc2Vec 不需要词向量作为输入：它将创建在其自身训练期间需要的任何词向量。 （还有一些模式，比如纯 DBOW—— dm=0, dbow_words=0根本不使用或训练词向量。）

用词向量播种 Doc2Vec 模型可能会有所帮助或有害； 没有太多理论或已发表的结果可以提供指导。 Word2Vec 有一种实验方法intersect_word2vec_format() ，可以将 word2vec-c-format 向量合并到具有现有词汇表的模型中，但您需要查看源代码才能真正理解其假设：

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

如何在 gensim 中加载预训练模型并用它训练 doc2vec？

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-07-29 02:38:08

如何在 gensim 中加载预训练模型并用它训练 doc2vec？

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-07-29 02:38:08

解决方案1
1 已采纳 2016-07-29 02:38:08