为什么 np.linalg.norm(...,axis=1) 比写出向量范数的公式慢？

Question

要将矩阵X的行归一化为单位长度，我通常使用：

X /= np.linalg.norm(X, axis=1, keepdims=True)

尝试为算法优化此操作时，我很惊讶地发现在我的机器上写出归一化的速度大约快 40%：

X /= np.sqrt(X[:,0]**2+X[:,1]**2+X[:,2]**2)[:,np.newaxis]
X /= np.sqrt(sum(X[:,i]**2 for i in range(X.shape[1])))[:,np.newaxis]

怎么会？ np.linalg.norm()的性能损失在np.linalg.norm() ？

import numpy as np
X = np.random.randn(10000,3)

%timeit X/np.linalg.norm(X,axis=1, keepdims=True)
# 276 µs ± 4.55 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit X/np.sqrt(X[:,0]**2+X[:,1]**2+X[:,2]**2)[:,np.newaxis]
# 169 µs ± 1.38 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

%timeit X/np.sqrt(sum(X[:,i]**2 for i in range(X.shape[1])))[:,np.newaxis]
# 185 µs ± 4.17 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

我在支持(2) python3.9 + numpy v1.19.3的 MacbookPro 2015 上观察到(1) python3.6 + numpy v1.17.2和(2) python3.9 + numpy v1.19.3 。

我不认为这是这篇文章的副本，它解决了矩阵范数，而这个是关于向量的 L2 范数。

Answer 1

row-wise L2-norm 的源代码归结为以下几行代码：

def norm(x, keepdims=False):
    x = np.asarray(x)
    s = x**2
    return np.sqrt(s.sum(axis=(1,), keepdims=keepdims))

简化代码假设x实值，并利用np.add.reduce(s, ...)等价于s.sum(...)的事实。

因此，OP 问题与询问为什么np.sum(x,axis=1)比sum(x[:,i] for i in range(x.shape[1])) ：

%timeit X.sum(axis=1, keepdims=False)
# 131 µs ± 1.6 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
%timeit sum(X[:,i] for i in range(X.shape[1]))
# 36.7 µs ± 91.2 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

这个问题已经在这里回答了。 简而言之，减少（ .sum(axis=1) ）带来的开销成本通常在浮点精度和速度（例如缓存机制，并行性）方面得到回报，但在减少的特殊情况下不会仅超过三列。 在这种情况下，与实际计算相比，开销相对较大。

如果X有更多列，情况就会改变。 numpy-boosted 标准化现在比使用 python for 循环的减少快得多：

X = np.random.randn(10000,100)
%timeit X/np.linalg.norm(X,axis=1, keepdims=True)
# 3.36 ms ± 132 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit X/np.sqrt(sum(X[:,i]**2 for i in range(X.shape[1])))[:,np.newaxis]
# 5.92 ms ± 168 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

另一个相关的 SO 线程在这里找到： numpy ufuncs vs. for loop 。

问题仍然是为什么 numpy 没有明确处理常见的特殊简化情况（例如对具有低轴维数的矩阵的列或行求和）。 可能是因为这种优化的效果往往强烈依赖于目标机器，并大大增加了代码的复杂性。

为什么 np.linalg.norm(...,axis=1) 比写出向量范数的公式慢？

问题描述

1 个解决方案

解决方案1
4 已采纳 2020-11-22 02:54:12

为什么 np.linalg.norm(...,axis=1) 比写出向量范数的公式慢？

问题描述

1 个解决方案

解决方案1 4 已采纳 2020-11-22 02:54:12

解决方案1
4 已采纳 2020-11-22 02:54:12