Gensim：如何從文本文件加載預先計算的單詞向量

Question

我有一個文本文件，其中包含以下格式的預計算單詞向量（示例）：

word -0.0762464299711 0.0128308048976 ... 0.0712385589283\\n'

每個單詞的每一行（用297個額外的浮點數代替... ）。 我試圖用Gensim加載這些作為KeyedVectors，因為我最終想要計算余弦相似度，找到最相似的單詞，等等。不幸的是我之前沒有和Gensim一起工作，從文檔中我不太清楚如何做這個。 我試過以下在這里找到的以下內容：

word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)

但是，這會產生以下錯誤：

ValueError: invalid literal for int() with base 10: 'the'

''是文本文件中的第一個單詞，所以我懷疑加載函數是否期望某些東西不存在。 但我找不到任何有關應該存在的信息。 我非常感謝指向這些信息的指針或我的問題的任何其他解決方案。 謝謝！

Answer 1

您可以在此處看到Word2Vec格式的示例。 第一行應該包含文件中的單詞數，后跟向量的維度。 這可能是您的腳本返回錯誤的原因。

在你的例子中：

1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283