繁体   English   中英

在纯NumPy中重写for循环以减少执行时间

[英]Rewriting a for loop in pure NumPy to decrease execution time

最近询问了如何为科学应用程序优化Python循环 ,并在NumPy中获得了一种优秀,智能的重新编码方式,这使我的执行时间减少了大约100倍

但是, B值的计算实际上嵌套在其他几个循环中,因为它是在规则的位置网格上进行计算的。 有没有类似的智能NumPy重写来削减这个程序的时间?

我怀疑这部分的性能提升不太明显,并且缺点可能是不可能向用户报告计算进度,结果无法写入输出文件,直到计算的结束,并且可能在一个巨大的步骤中这样做会产生内存影响吗? 有可能绕过这些吗?

import numpy as np
import time

def reshape_vector(v):
    b = np.empty((3,1))
    for i in range(3):
        b[i][0] = v[i]
    return b

def unit_vectors(r):
     return r / np.sqrt((r*r).sum(0))

def calculate_dipole(mu, r_i, mom_i):
    relative = mu - r_i
    r_unit = unit_vectors(relative)
    A = 1e-7

    num = A*(3*np.sum(mom_i*r_unit, 0)*r_unit - mom_i)
    den = np.sqrt(np.sum(relative*relative, 0))**3
    B = np.sum(num/den, 1)
    return B

N = 20000 # number of dipoles
r_i = np.random.random((3,N)) # positions of dipoles
mom_i = np.random.random((3,N)) # moments of dipoles
a = np.random.random((3,3)) # three basis vectors for this crystal
n = [10,10,10] # points at which to evaluate sum
gamma_mu = 135.5 # a constant

t_start = time.clock()
for i in range(n[0]):
    r_frac_x = np.float(i)/np.float(n[0])
    r_test_x = r_frac_x * a[0]
    for j in range(n[1]):
        r_frac_y = np.float(j)/np.float(n[1])
        r_test_y = r_frac_y * a[1]
        for k in range(n[2]):
            r_frac_z = np.float(k)/np.float(n[2])
            r_test = r_test_x +r_test_y + r_frac_z * a[2]
            r_test_fast = reshape_vector(r_test)
            B = calculate_dipole(r_test_fast, r_i, mom_i)
            omega = gamma_mu*np.sqrt(np.dot(B,B))
            # write r_test, B and omega to a file
    frac_done = np.float(i+1)/(n[0]+1)
    t_elapsed = (time.clock()-t_start)
    t_remain = (1-frac_done)*t_elapsed/frac_done
    print frac_done*100,'% done in',t_elapsed/60.,'minutes...approximately',t_remain/60.,'minutes remaining'

你可以做的一件显而易见的事就是更换线路

r_test_fast = reshape_vector(r_test)

r_test_fast = r_test.reshape((3,1))

可能不会对性能产生任何重大影响,但无论如何使用numpy内置驱动器而不是重新发明轮子是有意义的。

一般来说,正如您现在可能已经注意到的那样,优化numpy的技巧是在numpy全数组操作的帮助下表达算法,或者至少使用切片而不是迭代python代码中的每个元素。 倾向于阻止这种“向量化”的是所谓的循环携带依赖性,即每次迭代依赖于先前迭代的结果的循环。 简要地看一下你的代码,你没有这样的东西,应该可以很好地矢量化你的代码。

编辑:一个解决方案

我没有证实这是正确的,但应该让你知道如何处理它。

首先, 使用我们将使用cartesian()函数 然后


def calculate_dipole_vect(mus, r_i, mom_i):
    # Treat each mu sequentially
    Bs = []
    omega = []
    for mu in mus:
        rel = mu - r_i
        r_norm = np.sqrt((rel * rel).sum(1))
        r_unit =  rel / r_norm[:, np.newaxis]
        A = 1e-7

        num = A*(3*np.sum(mom_i * r_unit, 0)*r_unit - mom_i)
        den = r_norm ** 3
        B = np.sum(num / den[:, np.newaxis], 0)
        Bs.append(B)
        omega.append(gamma_mu * np.sqrt(np.dot(B, B)))
    return Bs, omega


# Transpose to get more "natural" ordering with row-major numpy
r_i = r_i.T
mom_i = mom_i.T

t_start = time.clock()
r_frac = cartesian((np.arange(n[0]) / float(n[0]),
                    np.arange(n[1]) / float(n[1]),
                    np.arange(n[2]) / float(n[2])))
r_test = np.dot(r_frac, a)
B, omega = calculate_dipole_vect(r_test, r_i, mom_i)

print 'Total time for vectorized: %f s' % (time.clock() - t_start)

好吧,在我的测试中,这实际上比我开始的基于循环的方法稍慢。 问题是,在问题的原始版本中,它已经在形状数组(20000,3)上进行了全数组运算的矢量化,因此任何进一步的矢量化都不会带来更多的好处。 事实上,如上所述,它可能会使性能恶化,可能是由于大型临时阵列。

如果您对代码进行概要分析 ,您将看到99%的运行时间都在calculate_dipole因此减少此循环的时间实际上不会显着缩短执行时间。 如果你想让它更快,你仍然需要专注于calculate_dipole。 我在此尝试了针对calculate_dipole Cython代码,并在整个时间内减少了大约2倍。 可能还有其他方法可以改进Cython代码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM