繁体   English   中英

Cython比纯Python快或慢

[英]Cython either marginally faster or slower than pure Python

我正在使用几种技术( NumPyWeaveCython )执行Python性能基准测试。 代码基本上在数学上所做的是C = AB ,其中A,B和C是N x N矩阵( 注意:这是矩阵乘积,而不是逐元素乘法)。

我已经编写了5种不同的代码实现:

  1. 纯Python(在2D Python列表中循环)
  2. NumPy(二维NumPy阵列的点积)
  3. 内联编织(C ++遍历2D数组)
  4. Cython(在2D Python列表上循环+静态键入)
  5. Cython-Numpy(在2D NumPy数组上循环+静态键入)

我的期望是实施2到5将比实施1快得多。但是我的结果却相反。 这些是我相对于纯Python实现的标准化提速结果:

  • python_list:1.00
  • numpy_array:330.09
  • weave_inline:30.72
  • cython_list:2.80
  • cython_array:0.14

我对NumPy的表现感到非常满意,但是我对Weave的表现并不热心,而Cython的表现使我哭泣。 我的整个代码分为两个文件。 一切都是自动化的,您只需要运行第一个文件即可查看所有结果。 有人可以帮我指出我可以做些什么以获得更好的结果吗?

matmul.py:

import time

import numpy as np
from scipy import weave
from scipy.weave import converters

import pyximport
pyximport.install()
import cython_matmul as cml


def python_list_matmul(A, B):
    C = np.zeros(A.shape, dtype=float).tolist()
    A = A.tolist()
    B = B.tolist()
    for k in xrange(len(A)):
        for i in xrange(len(A)):
            for j in xrange(len(A)):
                C[i][k] += A[i][j] * B[j][k]
    return C


def numpy_array_matmul(A, B):
    return np.dot(A, B)


def weave_inline_matmul(A, B):
    code = """
       int i, j, k;
       for (k = 0; k < N; ++k)
       {
           for (i = 0; i < N; ++i)
           {
               for (j = 0; j < N; ++j)
               {
                   C(i, k) += A(i, j) * B(j, k);
               }
           }
       }
       """

    C = np.zeros(A.shape, dtype=float)
    weave.inline(code, ['A', 'B', 'C', 'N'], type_converters=converters.blitz, compiler='gcc')
    return C


N = 100
A = np.random.rand(N, N)
B = np.random.rand(N, N)

function = []
function.append([python_list_matmul, 'python_list'])
function.append([numpy_array_matmul, 'numpy_array'])
function.append([weave_inline_matmul, 'weave_inline'])
function.append([cml.cython_list_matmul, 'cython_list'])
function.append([cml.cython_array_matmul, 'cython_array'])

t = []
for i in xrange(len(function)):
    t1 = time.time()
    C = function[i][0](A, B)
    t2 = time.time()
    t.append(t2 - t1)
    print function[i][1] + ' \t: ' + '{:10.6f}'.format(t[0] / t[-1])

cython_matmul.pyx:

import numpy as np
cimport numpy as np

import cython
cimport cython

DTYPE = np.float
ctypedef np.float_t DTYPE_t


@cython.boundscheck(False)
@cython.wraparound(False)
@cython.nonecheck(False)
cpdef cython_list_matmul(A, B):

    cdef int i, j, k
    cdef int N = len(A)

    A = A.tolist()
    B = B.tolist()
    C = np.zeros([N, N]).tolist()

    for k in xrange(N):
        for i in xrange(N):
            for j in xrange(N):
                C[i][k] += A[i][j] * B[j][k]
    return C


@cython.boundscheck(False)
@cython.wraparound(False)
@cython.nonecheck(False)
cpdef cython_array_matmul(np.ndarray[DTYPE_t, ndim=2] A, np.ndarray[DTYPE_t, ndim=2] B):

    cdef int i, j, k, N = A.shape[0]
    cdef np.ndarray[DTYPE_t, ndim=2] C = np.zeros([N, N], dtype=DTYPE)

    for k in xrange(N):
        for i in xrange(N):
            for j in xrange(N):
                C[i][k] += A[i][j] * B[j][k]
    return C

Python列表和高性能数学不兼容,请忘了cython_list_matmul

cython_array_matmul的唯一问题是索引使用不正确。 它应该是

C[i,k] += A[i,j] * B[j,k]

这就是在python中索引numpy数组的方式,这就是Cython优化的语法。 进行此更改后,您应该获得不错的性能。

Cython的注释功能确实有助于发现此类优化问题。 您可能会注意到A[i][j]会产生大量的Python API调用,而A[i,j]不会产生任何调用。

另外,如果您手动初始化所​​有条目,则np.emptynp.zeros更合适。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM