繁体 English 中英

Google word2vec pertrained 模型是 CBOW 还是 skipgram

[英]Is Google word2vec pertrained model CBOW or skipgram

原文 2019-07-18 08:38:12 9 2 python-3.x/ word2vec/ word-embedding

是谷歌预训练的word2vec模型CBO还是skipgram。

我们通过以下方式加载预训练模型：

from gensim.models.keyedvectors as word2vec

model= word2vec.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz')

我们如何专门加载预训练的 CBOW 或 skipgram 模型？

2 个解决方案

GoogleNews词向量是由Google使用专有语料库进行训练的，但是从未明确描述所使用的所有训练参数。 （它没有编码在文件中。）

在Google网上专门针对word2vec-toolkit代码多次询问，但没有明确的答案。 例如， word2vec作者Mikolov回答说他不记得训练参数。 在其他地方，另一位发布者认为word2vec论文之一暗示使用了skip-gram-但由于该段落与发布的GoogleNews向量的其他方面（如词汇大小）不完全匹配，因此我对此并不完全有信心。

由于Google尚不清楚，而且无论如何都没有根据不同的训练模式发布替代版本，因此，如果要运行测试或对不同的模式做出任何结论，则必须使用其他向量集，或以各种方式训练自己的向量。

迟到了，但 Mikolov 在这里描述了超参数。 谷歌新闻预训练向量是使用 CBOW 训练的。 我相信这是您加载的唯一选择； 没有可用的预训练跳过语法版本。

使用Gensim训练Word2vec模型

[英]train Word2vec model using Gensim

Gensim Word2Vec 模型：切割尺寸

[英]Gensim Word2Vec model: Cut dimensions

使用谷歌新闻语料库word2vec模型python的句子之间的余弦相似度

[英]Cosine similarity between sentences using Google news corpus word2vec model python

如何使用预训练的word2vec模型（Google）将单词列表转换为向量列表？

[英]How to turn a list of words into a list of vectors using a pre-trained word2vec model(Google)?

Pyspark ML上的save（）Word2vec模型正在创建空文件夹

[英]save() on a Pyspark ML Word2vec model is creating empty folders

如何在 Word2Vec 模型上应用 t-SNE

[英]How to apply t-SNE on Word2Vec Model

Word2vec保存的模型不是UTF-8编码的，但是输入到Word2vec模型的句子是UTF-8编码的

[英]Word2vec saved model is not UTF-8 encoded but the sentence input to the Word2vec model is UTF-8 encoded

创建word2vec模型syn1neg.npy扩展名

[英]creating word2vec model syn1neg.npy extension

使用 SimLex-999 评估 word2vec 模型

[英]evaluating word2vec model using SimLex-999

用word2vec和Kmeans聚类

[英]Clustering with word2vec and Kmeans

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Gensim训练Word2vec模型 Gensim Word2Vec 模型：切割尺寸使用谷歌新闻语料库word2vec模型python的句子之间的余弦相似度如何使用预训练的word2vec模型（Google）将单词列表转换为向量列表？ Pyspark ML上的save（）Word2vec模型正在创建空文件夹如何在 Word2Vec 模型上应用 t-SNE Word2vec保存的模型不是UTF-8编码的，但是输入到Word2vec模型的句子是UTF-8编码的创建word2vec模型syn1neg.npy扩展名使用 SimLex-999 评估 word2vec 模型用word2vec和Kmeans聚类

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM