[英]Is the Gensim word2vec model same as the standard model by Mikolov?
我正在實施一篇論文來比較我們的表現。 在論文中,uathor 說
300 維預訓練 word2vec 向量 (Mikolov et al., 2013)
我想知道這里的預訓練 word2vec Gensim model 是否與Google 官方網站上的預訓練嵌入相同(GoogleNews-vectors-negative300.bin.gz 文件)
我的懷疑來自 Gensim 文檔中的這一行(在 Word2Vec 演示部分)
我們將獲取在部分 Google 新聞數據集上訓練的 Word2Vec model,涵蓋大約 300 萬個單詞和短語
這是否意味着 gensim 上的 model 沒有經過充分訓練? 它與 Mikolov 的官方嵌入有什么不同嗎?
用於讀取詞向量的演示代碼正在下載完全相同的 Google 訓練GoogleNews-vectors-negative300
向量集。 (沒有其他人可以嘗試重新訓練該數據集,因為新聞文章用戶的原始語料庫,如果我沒記錯的話,來自 2013 年左右的超過 100B 字的訓練數據,是 Google 內部的。)
從算法上講, gensim
Word2Vec
的實現是在 Google/Mikolov 發布的word2vec.c
代碼之后緊密建模的,因此對於任何新訓練的向量,它的結果應該在可測量的方面匹配。 (線程方法的細微差異可能會略有不同。)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.