Python Gensim从向量创建Word2Vec模型（在ndarray中）

Question

我有一个带有单词及其对应向量的ndarray（每个单词的大小为100）。 例如：

Computer 0.11 0.41 ... 0.56
Ball     0.31 0.87 ... 0.32

等等。

我想从中创建一个word2vec模型：

model = load_from_ndarray(arr)

如何做呢？ 我看见

键控向量

但只需要文件而不需要数组

Answer 1

没有现有的便捷方法可以将您自己的数组/单词列表转换为KeyedVectors 。 因此，您必须使用自己的代码手动进行构建。

但这是一个非常简单的对象，主要是一个原始数组和一个将单词映射到索引位置的字典，所有源均可用：

我特别建议采取以下一项或两项措施的策略：

仔细研究load_word2vec_format()方法，该方法在同级base_any2vec.py文件中包含类似名称的支持功能，并查看它们在读取文件和构造完整实例时使用的每个步骤。
以一种受支持的方式训练虚拟的KeyedVectors ，例如，通过在包含所需单词的合成语料库上对Word2Vec进行训练，然后检查该对象以了解工作实例的必要部分，或对该实例进行突变。然后放置您喜欢的向量映射。

Answer 2

from gensim.models import KeyedVectors
words = myarray[:,0]
vectors = myarray[:,1:]
model = KeyedVectors(vectors.shape[1])
model.add(words, vectors)

如果您愿意，可以保存它

model.save('mymodel')

然后再加载

model = KeyedVectors.load('mymodel')