使用 GPU PyOpenCL 优化 Python 代码的不同方法：内核 GPU/PyOpenCL 中的外部函数

Question

我使用以下命令来分析我的 Python 代码：

python2.7 -m cProfile -o X2_non_flat_multiprocessing_dummy.prof X2_non_flat.py

然后，我可以全局可视化不同贪婪函数的重新分区：

如您所见，大量时间花费在Pobs_C和interpolate例程上，对应于以下代码片段：

def Pobs_C(z, zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, C_IAp, A_IAp, n_IAp, B_IAp, E_T, R_T, DG_T_fid, DG_T, WGT_T, WT_T, WIAT_T, cl, P_dd_spec, RT500):
    cc = 0
    P_dd_ok = np.zeros(len(z_pk))
    while cc < len(z_pk):
        if ((cl+0.5)/RT500[cc] < 35 and (cl+0.5)/RT500[cc] > 0.0005):
            P_dd_ok[cc] = P_dd_spec[cc]((cl+0.5)/RT500[cc])
        cc=cc+1

    P_dd_ok = CubicSpline(z_pk, P_dd_ok)
    if paramo == 8:
        P_dd_ok = P_dd_ok(z)*(DG_T(z)/DG_T_fid(z))**2
    else:
        P_dd_ok = P_dd_ok(z)

    if paramo != 9 or paramo != 10 or paramo != 11:
        C_gg = c/(100.*h_p)*0.5*delta_zpm*np.sum((F_dd_GG(z[1:], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, E_T(z[1:]), R_T(z[1:]), WGT_T[aa][1:], WGT_T[bb][1:], DG_T(z[1:]), P_dd_ok[1:]) + F_dd_GG(z[:-1], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, E_T(z[:-1]), R_T(z[:-1]), WGT_T[aa][:-1], WGT_T[bb][:-1], DG_T(z[:-1]), P_dd_ok[:-1]))) + P_shot_GC(zi, zj)
    else:
        C_gg = 0.
    if paramo < 12:
        C_ee = c/(100.*h_p)*0.5*delta_zpm*(np.sum(F_dd_LL(z[1:], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, E_T(z[1:]), R_T(z[1:]), WT_T[aa][1:], WT_T[bb][1:], DG_T(z[1:]), P_dd_ok[1:]) + F_dd_LL(z[:-1], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, E_T(z[:-1]), R_T(z[:-1]), WT_T[aa][:-1], WT_T[bb][:-1], DG_T(z[:-1]), P_dd_ok[:-1])) + np.sum(F_IA_d(z[1:], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, C_IAp, A_IAp, n_IAp, B_IAp, E_T(z[1:]), R_T(z[1:]), DG_T(z[1:]), WT_T[aa][1:], WT_T[bb][1:], WIAT_T[aa][1:], WIAT_T[bb][1:], P_dd_ok[1:]) + F_IA_d(z[:-1], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, C_IAp, A_IAp, n_IAp, B_IAp, E_T(z[:-1]), R_T(z[:-1]), DG_T(z[:-1]), WT_T[aa][:-1], WT_T[bb][:-1], WIAT_T[aa][:-1], WIAT_T[bb][:-1], P_dd_ok[:-1])) + np.sum(F_IAIA(z[1:], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, C_IAp, A_IAp, n_IAp, B_IAp, E_T(z[1:]), R_T(z[1:]), DG_T(z[1:]), WIAT_T[aa][1:], WIAT_T[bb][1:], P_dd_ok[1:]) + F_IAIA(z[:-1], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, C_IAp, A_IAp, n_IAp, B_IAp, E_T(z[:-1]), R_T(z[:-1]), DG_T(z[:-1]), WIAT_T[aa][:-1], WIAT_T[bb][:-1], P_dd_ok[:-1]))) + P_shot_WL(zi, zj)
    else:
        C_ee = 0.
    C_gl = c/(100.*h_p)*0.5*delta_zpm*np.sum((F_dd_GL(z[1:], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, C_IAp, A_IAp, n_IAp, B_IAp, E_T(z[1:]), R_T(z[1:]), DG_T(z[1:]), WGT_T[aa][1:], WT_T[bb][1:], WIAT_T[bb][1:], P_dd_ok[1:]) + F_dd_GL(z[:-1], zi, zj, h_p, wm_p, wDE_p, w0_p, wa_p, C_IAp, A_IAp, n_IAp, B_IAp, E_T(z[:-1]), R_T(z[:-1]), DG_T(z[:-1]), WGT_T[aa][:-1], WT_T[bb][:-1], WIAT_T[bb][:-1], P_dd_ok[:-1])))
    return C_gg, C_ee, C_gl

1) 主要问题：有没有办法在这个例程中实现一个 GPU/OpenCL 层，特别是对于CubicSpline或整个Pobs_C函数。 有哪些替代方法可以让我减少传递到Pobs_C及其内部函数CubicSpline ？

我对 OpenCL（不是 PyOpenCL）几乎没有概念，例如map-reduce方法或使用经典内核求解Heat 2D equation 。

2）之前的反馈：我知道我们不能天真地认为在内核中调用extern函数会带来更高的加速，因为GPU可以实现很多调用，我们不能进行优化。 相反，我宁愿把不同功能的所有内容都允许进行优化：您同意并确认吗？ 那么，我可以在内核代码中声明对外部函数的调用（我的意思是不在内核中的函数，即经典部分代码（称为Host code ？）？

3) 可选问题：也许我可以在内核中声明这个 extern 函数：是否可以通过在里面显式地进行这个声明？ 事实上，这可以避免复制所有可能与 GPU 并行的函数的所有内容。

PS：抱歉，如果这是一个通用主题，但它会让我更清楚地了解在上面的代码中包含 GPU/OpenCL 的可用方法，然后对其进行优化。

Answer 1

有没有办法在这个例程中实现 GPU/OpenCL 层，特别是对于 CubicSpline 或整个 Pobs_C 函数

很可能，没有。 分析中的大部分时间似乎都在 1200 万次多项式评估中，并且每个评估调用在 CPU 上仅花费 6 微秒。 目前尚不清楚在该操作中是否会暴露出严重的令人尴尬的并行性。 而 GPU 仅适用于执行令人尴尬的并行任务。

那么，我可以在内核代码中声明对外部函数的调用（我的意思是不在内核中的函数，即经典部分代码（称为主机代码？）？

不，那是不可能的。 考虑到 Python 代码无论如何都必须在主机 CPU 上运行，很难理解这可能带来什么好处。

也许我可以在内核中声明这个 extern 函数：是否可以通过在内部明确[原文如此] 声明？

不。

使用 GPU PyOpenCL 优化 Python 代码的不同方法：内核 GPU/PyOpenCL 中的外部函数

问题描述

1 个解决方案

解决方案1
4 已采纳

使用 GPU PyOpenCL 优化 Python 代码的不同方法：内核 GPU/PyOpenCL 中的外部函数

问题描述

1 个解决方案

解决方案1 4 已采纳

解决方案1
4 已采纳