[英]Load word vectors from a text file - GENSIM PYTHON
您好,我有一个这种形式的 txt 文件,第一列是单词,第二列是向量。
word 0.256 0.2659 0.326595
word1 0.528 0.6589 0.62326 ...
我正在尝试将其加载为键控向量,因为我想计算单词之间的余弦相似度并找到最相似的单词,但我总是会出错。
我猜实际格式包括换行符,例如:
word 0.256 0.2659 0.326595
word1 0.528 0.6589 0.62326
这或多或少是 GLoVe 训练向量的常见格式,并且与 Google 的原始word2vec.c
代码使用的文本格式非常相似 - 它添加了第一行,其中包含向量计数及其维度。
(如果您的矢量来自其中一种工具或公共场所,并且文件名或来源中有关其格式的更多提示,那么在您的问题中说明这一点会很有帮助。)
如果我猜对了你的真实格式,那么 Gensim 的KeyedVectors
class 可以通过.load_word2vec_format()
方法加载 GLoVe 格式,使用no_header=True
可选参数:
vecs = KeyedVectors.load_word2vec_format(filename, binary=False, no_header=True)
有关更多选项,请参阅文档:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.