簡體   English   中英

Gensim:如何從文本文件加載預先計算的單詞向量

[英]Gensim: how to load precomputed word vectors from text file

我有一個文本文件,其中包含以下格式的預計算單詞向量(示例):

word -0.0762464299711 0.0128308048976 ... 0.0712385589283\\n'

每個單詞的每一行(用297個額外的浮點數代替... )。 我試圖用Gensim加載這些作為KeyedVectors,因為我最終想要計算余弦相似度,找到最相似的單詞,等等。不幸的是我之前沒有和Gensim一起工作,從文檔中我不太清楚如何做這個。 我試過以下在這里找到的以下內容:

word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)

但是,這會產生以下錯誤:

ValueError: invalid literal for int() with base 10: 'the'

''是文本文件中的第一個單詞,所以我懷疑加載函數是否期望某些東西不存在。 但我找不到任何有關應該存在的信息。 我非常感謝指向這些信息的指針或我的問題的任何其他解決方案。 謝謝!

您可以在此處看到Word2Vec格式的示例。 第一行應該包含文件中的單詞數,后跟向量的維度。 這可能是您的腳本返回錯誤的原因。

在你的例子中:

1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM