在python中为稀疏张量计算余弦相似度的有效方法？

Question

我有一个单位张量的列表（length = 1） 。 此列表包含约20000个这样的张量。 张量具有约3000个尺寸，但非常稀疏。 只有x（0 <x <1）个维度不为0 。 我需要计算所有这些张量之间的余弦相似度。 最有效的方法是什么？ （这不是NLP任务，但是我的解决方案看起来类似于word2Vect方法，这就是为什么我添加了NLP标签。我的张量比word2vec具有更大的维数，并且更稀疏）

Answer 1

有关sklearn cosine_similarity函数的信息，请参见以下网站

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html

在python中

from sklearn.metrics.pairwise import cosine_similarity
cos_sim = cosine_similarity(vector1,vector2)

Answer 2

SciKit-Learn的cosine_similarity是您的朋友：

from scipy import sparse
from sklearn.metrics.pairwise import cosine_similarity

# example test:
T = sparse.rand(4, 3, 0.9)
cosine_similarity(T)

# full run (tensor as described in question):
T = sparse.rand(20000, 3000)
%time cosine_similarity(T)

在我的机器上花费大约4.4秒。

# staying sparse:
%time cosine_similarity(T, dense_output=False)

在我的机器上花费不到2秒的时间（即，加速约2倍）。

在python中为稀疏张量计算余弦相似度的有效方法？

问题描述

2 个解决方案

解决方案1
1 2017-07-03 13:58:41

有关sklearn cosine_similarity函数的信息，请参见以下网站

在python中

解决方案2
0 2017-07-05 10:13:34

在python中为稀疏张量计算余弦相似度的有效方法？

问题描述

2 个解决方案

解决方案1 1 2017-07-03 13:58:41

有关sklearn cosine_similarity函数的信息，请参见以下网站

在python中

解决方案2 0 2017-07-05 10:13:34

解决方案1
1 2017-07-03 13:58:41

解决方案2
0 2017-07-05 10:13:34