繁体   English   中英

Google word2vec pertrained 模型是 CBOW 还是 skipgram

[英]Is Google word2vec pertrained model CBOW or skipgram

是谷歌预训练的word2vec模型CBO还是skipgram。

我们通过以下方式加载预训练模型:

from gensim.models.keyedvectors as word2vec

model= word2vec.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz')

我们如何专门加载预训练的 CBOW 或 skipgram 模型?

GoogleNews词向量是由Google使用专有语料库进行训练的,但是从未明确描述所使用的所有训练参数。 (它没有编码在文件中。)

在Google网上专门针对word2vec-toolkit代码多次询问,但没有明确的答案。 例如, word2vec作者Mikolov回答说他不记得训练参数 在其他地方, 另一位发布者认为word2vec论文之一暗示使用了skip-gram-但由于该段落与发布的GoogleNews向量的其他方面(如词汇大小)不完全匹配,因此我对此并不完全有信心。

由于Google尚不清楚,而且无论如何都没有根据不同的训练模式发布替代版本,因此,如果要运行测试或对不同的模式做出任何结论,则必须使用其他向量集,或以各种方式训练自己的向量。

迟到了,但 Mikolov 在这里描述了超参数。 谷歌新闻预训练向量是使用 CBOW 训练的。 我相信这是您加载的唯一选择; 没有可用的预训练跳过语法版本。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM