如何加載預訓練的doc2vec模型並使用其向量

Question

如果我想在此網站https://github.com/jhlau/doc2vec中使用預先訓練的doc2vec模型，有人知道我應該使用哪個功能？

我知道我們可以使用Keyvectors.load_word2vec_format()從預先訓練的word2vec模型中提取單詞向量，但是我們是否也具有類似的功能來在gensim中加載預先訓練的doc2vec模型？

非常感謝。

Answer 1

當使用gensim的本機save()保存類似Doc2Vec的模型時，可以使用本機load()方法重新加載該模型：

model = Doc2Vec.load(filename)

請注意，大型內部數組可能已經與主文件名以及其他帶有擴展名的文件名一起保存了，並且所有這些文件必須保存在一起才能重新加載功能齊全的模型。 （您仍然只需要指定主保存文件，輔助文件將以預期的名稱在同一目錄中被發現。）

您可能在嘗試使用那些預先訓練的模型時遇到其他問題。 尤其是：

如鏈接頁面所述，作者使用了gensim的自定義變體，該變體大約在2年前出現。 文件可能無法在標准gensim或更高版本的gensim中加載
尚不清楚使用什么參數來訓練那些模型（盡管我想如果成功加載它們，您可以將它們視為模型中的屬性），以及針對該目的使用了多少元優化，以及這些目的是否會符合您自己的項目
如果參數在回購文件中的一個如圖所示， [train_model.py][1]有些是與最佳實踐不一致（一個min_count=1是通常為壞Doc2Vec ）或表觀模型尺寸（僅1.4GB模型無法在2015年Wikipedia中容納數百萬個文檔或單詞令牌的所有300維矢量）

我強烈建議您在理解的語料庫上使用最新代碼並使用針對自己的目的而優化的元參數來訓練自己的模型。

Answer 2

嘗試這個：

import gensim.models as g

model="model_folder/doc2vec.bin"  #point to downloaded pre-trained doc2vec model

#load model
m = g.Doc2Vec.load(model)