簡體   English   中英

Gensim word2vec model 是否與 Mikolov 的標准 model 相同?

[英]Is the Gensim word2vec model same as the standard model by Mikolov?

我正在實施一篇論文來比較我們的表現。 在論文中,uathor 說

300 維預訓練 word2vec 向量 (Mikolov et al., 2013)

我想知道這里的預訓練 word2vec Gensim model 是否與Google 官方網站上的預訓練嵌入相同(GoogleNews-vectors-negative300.bin.gz 文件)


我的懷疑來自 Gensim 文檔中的這一行(在 Word2Vec 演示部分)

我們將獲取在部分 Google 新聞數據集上訓練的 Word2Vec model,涵蓋大約 300 萬個單詞和短語

這是否意味着 gensim 上的 model 沒有經過充分訓練? 它與 Mikolov 的官方嵌入有什么不同嗎?

用於讀取詞向量的演示代碼正在下載完全相同的 Google 訓練GoogleNews-vectors-negative300向量集。 (沒有其他人可以嘗試重新訓練該數據集,因為新聞文章用戶的原始語料庫,如果我沒記錯的話,來自 2013 年左右的超過 100B 字的訓練數據,是 Google 內部的。)

從算法上講, gensim Word2Vec的實現是在 Google/Mikolov 發布的word2vec.c代碼之后緊密建模的,因此對於任何新訓練的向量,它的結果應該在可測量的方面匹配。 (線程方法的細微差異可能會略有不同。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM