加速numpy.dot

Question

我有一个numpy脚本，它在以下代码中numpy了大约50％的运行时间：

s = numpy.dot(v1, v1)

哪里

v1 = v[1:]

和v是存储在连续内存中的4000个元素ndarray of float64 （ v.strides是(8,) ）。

有什么建议加快这个？

编辑这是在Intel硬件上。 这是我的numpy.show_config()的输出：

atlas_threads_info:
    libraries = ['lapack', 'ptf77blas', 'ptcblas', 'atlas']
    library_dirs = ['/usr/local/atlas-3.9.16/lib']
    language = f77
    include_dirs = ['/usr/local/atlas-3.9.16/include']

blas_opt_info:
    libraries = ['ptf77blas', 'ptcblas', 'atlas']
    library_dirs = ['/usr/local/atlas-3.9.16/lib']
    define_macros = [('ATLAS_INFO', '"\\"3.9.16\\""')]
    language = c
    include_dirs = ['/usr/local/atlas-3.9.16/include']

atlas_blas_threads_info:
    libraries = ['ptf77blas', 'ptcblas', 'atlas']
    library_dirs = ['/usr/local/atlas-3.9.16/lib']
    language = c
    include_dirs = ['/usr/local/atlas-3.9.16/include']

lapack_opt_info:
    libraries = ['lapack', 'ptf77blas', 'ptcblas', 'atlas']
    library_dirs = ['/usr/local/atlas-3.9.16/lib']
    define_macros = [('ATLAS_INFO', '"\\"3.9.16\\""')]
    language = f77
    include_dirs = ['/usr/local/atlas-3.9.16/include']

lapack_mkl_info:
  NOT AVAILABLE

blas_mkl_info:
  NOT AVAILABLE

mkl_info:
  NOT AVAILABLE

Answer 1

也许罪魁祸首是复制传递给dot的数组。

正如斯文所说，点积依赖于BLAS操作。 这些操作需要以连续的C顺序存储的数组。 如果传递给dot的两个数组都在C_CONTIGUOUS中，那么你应该看到更好的性能。

当然，如果你的两个数组传递给点确实1D（8），那么你应该看到的C_CONTIGUOUS并设置为True F_CONTIGUOUS标志; 但如果它们是（1,8），那么你可以看到混合顺序。

>>> w = NP.random.randint(0, 10, 100).reshape(100, 1)
>>> w.flags
   C_CONTIGUOUS : True
   F_CONTIGUOUS : False
   OWNDATA : False
   WRITEABLE : True
   ALIGNED : True
   UPDATEIFCOPY : False

另一种方法：使用BLAS中的_GEMM，它通过模块scipy.linalg.fblas公开 。 （两个数组A和B显然是Fortran顺序，因为使用了fblas 。）

from scipy.linalg import fblas as FB
X = FB.dgemm(alpha=1., a=A, b=B, trans_b=True)

Answer 2

你的阵列不是很大，所以ATLAS可能做得不多。 您对以下Fortran计划的时间安排是什么？ 假设ATLAS没有做太多，这应该让你了解如果没有任何python开销，dot（）的速度有多快。 使用gfortran -O3，我获得了5 +/- 0.5 us的速度。

    program test

    real*8 :: x(4000), start, finish, s
    integer :: i, j
    integer,parameter :: jmax = 100000

    x(:) = 4.65
    s = 0.
    call cpu_time(start)
    do j=1,jmax
        s = s + dot_product(x, x)
    enddo
    call cpu_time(finish)
    print *, (finish-start)/jmax * 1.e6, s

    end program test

Answer 3

我唯一可以想到的是加速这一点是为了确保你的NumPy安装是针对优化的BLAS库（如ATLAS）编译的。 numpy.dot()是使用BLAS的少数几个NumPy函数之一。

Answer 4

如果编译正确，numpy.dot将使用多线程。 确保它与顶部一起。 我知道人们没有在numpy w / atlas中进行多线程工作的情况。 此外，值得尝试使用针对intel mkl库编译的numpy版本。 它们包括应该比英特尔硬件上的地图集更快的blas例程。 你可以试试enthought的python发行版。 包含所有这些，对于拥有edu电子邮件帐户的人来说是免费的。

加速numpy.dot

问题描述

4 个解决方案

解决方案1
5 2011-05-13 12:08:51

解决方案2
5 已采纳 2011-05-13 18:51:34

解决方案3
4 2011-05-13 10:32:19

解决方案4
2 2011-05-14 15:49:07

加速numpy.dot

问题描述

4 个解决方案

解决方案1 5 2011-05-13 12:08:51

解决方案2 5 已采纳 2011-05-13 18:51:34

解决方案3 4 2011-05-13 10:32:19

解决方案4 2 2011-05-14 15:49:07

解决方案1
5 2011-05-13 12:08:51

解决方案2
5 已采纳 2011-05-13 18:51:34

解决方案3
4 2011-05-13 10:32:19

解决方案4
2 2011-05-14 15:49:07