繁体   English   中英

gensim 是如何快速找到最相似的单词的?

[英]How does gensim manage to find the most similar words so fast?

假设我们训练了一个超过 100 万字的 model。 为了找到最相似的词,我们需要计算测试词的嵌入与所有 100 万个词的嵌入之间的距离,然后找到最近的词。 看来 Gensim 计算结果的速度非常快。 虽然当我想计算最相似的时候,我的 function 非常慢:

def euclidean_most_similars (model, word, topn = 10):
  distances = {}
  vec1 = model[word]
  for item in model.wv.vocab:
    if item!= node:
      vec2 = model[item]
      dist = np.linalg.norm(vec1 - vec2)
      distances[(node, item)] = dist
  sorted_distances = sorted(distances.items(), key=operator.itemgetter(1))

我想知道 Gensim 如何如此快速地计算最接近的单词,以及计算最相似词的有效方法是什么。

正如@g-anderson 评论的那样,可以查看gensim源以了解它的确切作用。 但是, gensim实际上并没有使用任何自己优化的 Cython 或编译的 C 代码作为其most_similar()方法的一部分——可以在以下位置查看:

https://github.com/RaRe-Technologies/gensim/blob/b287fd841c31d0dfa899d784da0bd5b3669e104d/gensim/models/keyedvectors.py#L689

相反,通过使用numpy / scipy批量数组操作,这些库的高度优化代码将利用 CPU 原语和多线程来计算所有相关的相似性,远远快于解释的 ZA7F5F35426B927417FC9231B563Z 循环。

(关键的主力是numpy dot操作:一个调用创建所有相似性的有序数组 - 完全跳过循环和您的中间结果dict 。但是argsort ,传递到numpy实现以及,可能也优于惯用sorted() 。)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM