[英]Gensim's Doc2Vec - How to use pre-trained word2vec (word similarities)
[英]How to load pre-trained model with in gensim and train doc2vec with it?
我准备好了我已经训练过的 word2vec 模型。 我已将其序列化为 CSV 文件:
word, v0, v1, ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461
我想知道的是如何在gensim
加载该词向量模型并使用它来训练段落或 doc2vec 模型。
这个Doc2Vec 教程说我可以以“ #C # C text format
”的形式加载模型,但我不知道这实际上意味着什么。 什么是“C 文本格式”,但更重要的是:
如何从我的 word2vec 模型构建词汇表?
Doc2Vec 不需要词向量作为输入:它将创建在其自身训练期间需要的任何词向量。 (还有一些模式,比如纯 DBOW—— dm=0, dbow_words=0
根本不使用或训练词向量。)
用词向量播种 Doc2Vec 模型可能会有所帮助或有害; 没有太多理论或已发表的结果可以提供指导。 Word2Vec 有一种实验方法intersect_word2vec_format()
,可以将 word2vec-c-format 向量合并到具有现有词汇表的模型中,但您需要查看源代码才能真正理解其假设:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.