Python 中的自动 CudaMat 转换

Question

我正在考虑使用某种形式的 CUDA 加速我的 python 代码，这都是矩阵数学。 目前我的代码正在使用 Python 和 Numpy，因此使用 PyCUDA 或 CudaMat 之类的东西重写它似乎并不难。

然而，在我第一次尝试使用 CudaMat 时，我意识到我必须重新排列很多方程才能将所有操作都保留在 GPU 上。 这包括创建许多临时变量，以便我可以存储操作的结果。

我理解为什么这是必要的，但是它使曾经容易阅读的方程式变得有些混乱，难以检查其正确性。 此外，我希望以后能够轻松地修改方程式，这不是转换后的形式。

package Theano 设法做到这一点，首先创建操作的符号表示，然后将它们编译为 CUDA。 然而，在尝试了 Theano 一段时间后，我对一切都是那么不透明感到沮丧。 例如，仅获取 myvar.shape[0] 的实际值就变得很困难，因为直到很久以后才会对树进行评估。 我也更喜欢更少的框架，其中我的代码非常符合一个库，该库在 Numpy 的位置不可见。

因此，我真正想要的是更简单的东西。 我不想要自动区分（如果我需要，还有其他包，如 OpenOpt 可以做到这一点），或者树的优化，而只是从标准 Numpy 表示法到 CudaMat/PyCUDA/somethingCUDA 的转换。 事实上，我希望能够在没有任何 CUDA 代码的情况下将其评估为 Numpy 进行测试。

我目前正在考虑自己写这篇文章，但在考虑这样的冒险之前，我想看看是否有其他人知道类似的项目或一个好的起点。 我知道的唯一可能与此接近的其他项目是 SymPy，但我不知道适应这个目的有多容易。

我目前的想法是创建一个看起来像 Numpy.array class 的数组 class。 只有 function 会构建一棵树。 在任何时候，该符号数组 class 都可以转换为 Numpy 数组 class 并进行评估（也将是一对一的奇偶校验）。 或者，可以遍历数组 class 并生成 CudaMat 命令。 如果需要优化，可以在该阶段完成（例如重新排序操作、创建临时变量等），而不会妨碍检查正在发生的事情。

任何想法/评论/等。 对此将不胜感激！

更新

一个用例可能看起来像（其中 sym 是理论模块），我们可能正在做一些事情，比如计算梯度：

W = sym.array(np.rand(size=(numVisible, numHidden)))
delta_o = -(x - z)
delta_h = sym.dot(delta_o, W)*h*(1.0-h)
grad_W = sym.dot(X.T, delta_h)

在这种情况下， grad_W实际上只是一棵包含需要完成的操作的树。 如果您想正常评估表达式（即通过 Numpy），您可以执行以下操作：

npGrad_W = grad_W.asNumpy()

这将只执行树代表的 Numpy 命令。 另一方面，如果您想使用 CUDA，您可以：

cudaGrad_W = grad_W.asCUDA()

这会将树转换为可以通过 CUDA 执行的表达式（这可能以几种不同的方式发生）。

这样它应该是微不足道的：（1）测试grad_W.asNumpy() == grad_W.asCUDA() ，和（2）转换你预先存在的代码以使用 CUDA。

Answer 1

你看过 PyCUDA 的 GPUArray 部分吗？

http://documen.tician.de/pycuda/array.html

虽然我自己没有使用过它，但它似乎就是你要找的东西。 特别是，请查看该页面底部附近的“单次自定义表达式评估”部分。

Python 中的自动 CudaMat 转换

问题描述

1 个解决方案

解决方案1
2 已采纳 2011-08-01 00:18:32

Python 中的自动 CudaMat 转换

问题描述

1 个解决方案

解决方案1 2 已采纳 2011-08-01 00:18:32

解决方案1
2 已采纳 2011-08-01 00:18:32