繁体   English   中英

从文本文件加载词向量 - GENSIM PYTHON

[英]Load word vectors from a text file - GENSIM PYTHON

您好,我有一个这种形式的 txt 文件,第一列是单词,第二列是向量。

word 0.256 0.2659 0.326595
word1 0.528 0.6589 0.62326 ...

我正在尝试将其加载为键控向量,因为我想计算单词之间的余弦相似度并找到最相似的单词,但我总是会出错。

我猜实际格式包括换行符,例如:

word 0.256 0.2659 0.326595
word1 0.528 0.6589 0.62326

这或多或少是 GLoVe 训练向量的常见格式,并且与 Google 的原始word2vec.c代码使用的文本格式非常相似 - 它添加了第一行,其中包含向量计数及其维度。

(如果您的矢量来自其中一种工具或公共场所,并且文件名或来源中有关其格式的更多提示,那么在您的问题中说明这一点会很有帮助。)

如果我猜对了你的真实格式,那么 Gensim 的KeyedVectors class 可以通过.load_word2vec_format()方法加载 GLoVe 格式,使用no_header=True可选参数:

vecs = KeyedVectors.load_word2vec_format(filename, binary=False, no_header=True)

有关更多选项,请参阅文档:

https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.KeyedVectors.load_word2vec_format

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM