[英]Is Google word2vec pertrained model CBOW or skipgram
是谷歌预训练的word2vec模型CBO还是skipgram。
我们通过以下方式加载预训练模型:
from gensim.models.keyedvectors as word2vec
model= word2vec.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz')
我们如何专门加载预训练的 CBOW 或 skipgram 模型?
GoogleNews
词向量是由Google使用专有语料库进行训练的,但是从未明确描述所使用的所有训练参数。 (它没有编码在文件中。)
在Google网上专门针对word2vec-toolkit
代码多次询问,但没有明确的答案。 例如, word2vec作者Mikolov回答说他不记得训练参数 。 在其他地方, 另一位发布者认为word2vec论文之一暗示使用了skip-gram-但由于该段落与发布的GoogleNews
向量的其他方面(如词汇大小)不完全匹配,因此我对此并不完全有信心。
由于Google尚不清楚,而且无论如何都没有根据不同的训练模式发布替代版本,因此,如果要运行测试或对不同的模式做出任何结论,则必须使用其他向量集,或以各种方式训练自己的向量。
迟到了,但 Mikolov 在这里描述了超参数。 谷歌新闻预训练向量是使用 CBOW 训练的。 我相信这是您加载的唯一选择; 没有可用的预训练跳过语法版本。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.