繁体 English 中英

Gensim word2vec model 是否与 Mikolov 的标准 model 相同？

[英]Is the Gensim word2vec model same as the standard model by Mikolov?

原文 2020-04-19 11:28:03 9 1 python/ nlp/ gensim/ word2vec

我正在实施一篇论文来比较我们的表现。 在论文中，uathor 说

300 维预训练 word2vec 向量 (Mikolov et al., 2013)

我想知道这里的预训练 word2vec Gensim model 是否与Google 官方网站上的预训练嵌入相同（GoogleNews-vectors-negative300.bin.gz 文件）

我的怀疑来自 Gensim 文档中的这一行（在 Word2Vec 演示部分）

我们将获取在部分 Google 新闻数据集上训练的 Word2Vec model，涵盖大约 300 万个单词和短语

这是否意味着 gensim 上的 model 没有经过充分训练？ 它与 Mikolov 的官方嵌入有什么不同吗？

1 个解决方案

用于读取词向量的演示代码正在下载完全相同的 Google 训练GoogleNews-vectors-negative300向量集。 （没有其他人可以尝试重新训练该数据集，因为新闻文章用户的原始语料库，如果我没记错的话，来自 2013 年左右的超过 100B 字的训练数据，是 Google 内部的。）

从算法上讲， gensim Word2Vec的实现是在 Google/Mikolov 发布的word2vec.c代码之后紧密建模的，因此对于任何新训练的向量，它的结果应该在可测量的方面匹配。 （线程方法的细微差异可能会略有不同。）

Gensim Word2Vec 模型：切割尺寸

[英]Gensim Word2Vec model: Cut dimensions

gensim中的增量Word2Vec模型训练

[英]Incremental Word2Vec Model Training in gensim

Gensim Word2Vec model 浮点数

[英]Gensim Word2Vec model floating point

将词嵌入添加到 word2vec gensim 模型

[英]Add word embedding to word2vec gensim model

训练gensim word2vec模型后，词汇不在词汇表中，为什么？

[英]word not in vocabulary after training gensim word2vec model, why?

如何从gensim中的Word2Vec模型中完全删除单词？

[英]How to remove a word completely from a Word2Vec model in gensim?

在gensim Word2Vec模型中匹配单词和向量

[英]Matching words and vectors in gensim Word2Vec model

无法加载已保存的gensim word2vec模型

[英]Can't load saved gensim word2vec model

Python：Gensim Word2vec 模型类中的“大小”参数是什么

[英]Python: What is the “size” parameter in Gensim Word2vec model class

Gensim 4.0.1 Word2Vec model 的索引越界错误

[英]Index out of bounds error with Gensim 4.0.1 Word2Vec model

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Gensim Word2Vec 模型：切割尺寸 gensim中的增量Word2Vec模型训练 Gensim Word2Vec model 浮点数将词嵌入添加到 word2vec gensim 模型训练gensim word2vec模型后，词汇不在词汇表中，为什么？如何从gensim中的Word2Vec模型中完全删除单词？在gensim Word2Vec模型中匹配单词和向量无法加载已保存的gensim word2vec模型 Python：Gensim Word2vec 模型类中的“大小”参数是什么 Gensim 4.0.1 Word2Vec model 的索引越界错误

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM