[英]Gensim: how to load precomputed word vectors from text file
我有一個文本文件,其中包含以下格式的預計算單詞向量(示例):
word -0.0762464299711 0.0128308048976 ... 0.0712385589283\\n'
每個單詞的每一行(用297個額外的浮點數代替...
)。 我試圖用Gensim加載這些作為KeyedVectors,因為我最終想要計算余弦相似度,找到最相似的單詞,等等。不幸的是我之前沒有和Gensim一起工作,從文檔中我不太清楚如何做這個。 我試過以下在這里找到的以下內容:
word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)
但是,這會產生以下錯誤:
ValueError: invalid literal for int() with base 10: 'the'
''是文本文件中的第一個單詞,所以我懷疑加載函數是否期望某些東西不存在。 但我找不到任何有關應該存在的信息。 我非常感謝指向這些信息的指針或我的問題的任何其他解決方案。 謝謝!
您可以在此處看到Word2Vec格式的示例。 第一行應該包含文件中的單詞數,后跟向量的維度。 這可能是您的腳本返回錯誤的原因。
在你的例子中:
1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.