簡體   English   中英

向量化矩陣和向量之間的歐幾里得距離的計算

[英]Vectorize the calculation for Euclidean distance between matrix and vector

我想計算矩陣與標准向量之間的歐幾里得距離。 我所有的矩陣都存儲在一個列表中,比方說,A,這樣

A = [[1,2,3],[2,3,4]...,[8,9,10]],

假設標准向量是[1,1,1]

我可以使用for循環進行此操作,但這確實很耗時,因為A中通常有數百個矩陣。如何向量化此計算以縮短運行時間?

A = np.array([[1,2,3],
              [2,3,4],
              [3,4,5],
              [4,5,6],
              [5,6,7],
              [6,7,8],
              [7,8,9],
              [8,9,10]])

v = np.array([1,1,1])

# Compute the length (norm) of the distance between the vectors
distance = np.linalg.norm(A - v, axis = 1)
print(distance)
[ 2.23606798  3.74165739  5.38516481  7.07106781  8.77496439 10.48808848
 12.20655562 13.92838828]

方法1

使用np.einsum進行距離計算。 為了解決這里的問題,我們可以-

def dist_matrix_vec(matrix, vec):    
    d = np.subtract(matrix,vec)
    return np.sqrt(np.einsum('ij,ij->i',d,d))

樣品運行-

In [251]: A = [[1,2,3],[2,3,4],[8,9,10]]

In [252]: B = np.array([1,1,1])

In [253]: dist_matrix_vec(A,B)
Out[253]: array([ 2.23606798,  3.74165739, 13.92838828])

方法#2

處理大型數據時,如果可以將預期的操作表示為算術運算,則可以使用支持多核處理的numexpr模塊 為了解決我們的問題,我們可以這樣表示:

import numexpr as ne

def dist_matrix_vec_numexpr(matrix, vec): 
    matrix = np.asarray(matrix)
    vec = np.asarray(vec)
    return np.sqrt(ne.evaluate('sum((matrix-vec)**2,1)'))

大型陣列上的時間-

In [295]: np.random.seed(0)
     ...: A = np.random.randint(0,9,(10000,3))
     ...: B = np.random.randint(0,9,(3,))

In [296]: %timeit np.linalg.norm(A - B, axis = 1) #@Nathaniel's soln
     ...: %timeit dist_matrix_vec(A,B)
     ...: %timeit dist_matrix_vec_numexpr(A,B)
1000 loops, best of 3: 244 µs per loop
10000 loops, best of 3: 131 µs per loop
10000 loops, best of 3: 96.5 µs per loop

In [297]: np.random.seed(0)
     ...: A = np.random.randint(0,9,(100000,3))
     ...: B = np.random.randint(0,9,(3,))

In [298]: %timeit np.linalg.norm(A - B, axis = 1) #@Nathaniel's soln
     ...: %timeit dist_matrix_vec(A,B)
     ...: %timeit dist_matrix_vec_numexpr(A,B)
100 loops, best of 3: 5.31 ms per loop
1000 loops, best of 3: 1.43 ms per loop
1000 loops, best of 3: 918 µs per loop

基於numexpr的有8線程。 因此,隨着更多線程可用於計算,它應該進一步改進。 Related post如何控制多核功能的Related post

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM