标签[cula] - 堆栈内存溢出

使用 cublasSgetriBatched 对 gpu 上的两个矩阵求逆 - Inversion of two matrices on a gpu using cublasSgetriBatched

我是cublas的新手。我想在 GPU 上并行计算两个矩阵的逆。矩阵是 [4 8;3 9] 和 [5 2;1 7]。是否可以使用 cublasSgetriBatched 来做到这一点？这是我的代码，我得到的结果不正确。在这里，我采用了 2x2 矩阵，但我想找到一种方法来解决多个 mxm 矩 ...

Theano：混合使用CPU和GPU？ - Theano: mixing CPU and GPU?

我建立了一个神经网络，该网络需要使用Cholesky分解并求解三角系统作为其计算的一部分。当然，这意味着我还需要计算整个计算的梯度。当我尝试编译代码时，出现错误“没有可用的Cula”。不幸的是，我无法从网站上下载Cula。我想知道是否可以将CPU和GPU与theano混合 ...

CULA-在CULA中使用Python Solve（） - CULA - using Python solve() within CULA

如何将Python的Solve（）合并到Python CULA程序中？我在用结果： liculaC和ctypes的任何组合都会给我类似的错误。如何引入此功能？我是否需要使用C函数（scanf）或其他工具？谢谢。 ...

在Jetson Tk1板上将CULA密集库加载到python中 - Load CULA dense library into python on jetson tk1 board

从此网站（ http://www.culatools.com/downloads/dense/ ）成功下载并安装了完整的CULA密集R18程序包后，我无法使用ctypes将库加载到python中。我已将./bashrc中的LD_LIBRARY_PATH更改为包含包含libcula_lapac ...

不同的QR分解结果与numpy和CULA - Different QR decomposition results with numpy and CULA

我正在以两种不同的方式执行QR分解：使用标准的numpy方法和使用CULA库中实现的GEQRF LAPACK函数。这是python中的简单示例（用于访问CULA的PyCULA）：它产生以下输出：我的代码出了什么问题？ ...

澄清一些关于culasparse的事情 - clarify some things about culasparse

检查这个例子（最后的API例子），我想问几个问题。 1）在这个例子中，我们提供了非零元素的矩阵a。虽然矩阵的实际大小是多少？这些是矩阵的元素还是包含非零元素的位置？ 2）我可以在计算中使用（在像culaSparseSetDcooData这样的函数中使用）矩阵A，它将包含零和非零元素吗 ...

Cula的“ culaSgesv”答案在哪里？ - where is cula “culaSgesv” answer for X?

我刚刚下载了Cula，我想使用它的已实现函数来求解线性方程组，我查看了示例目录，然后看到了下面的代码，但是当他们想要获得A * X = B的X解时，他们只是将B复制到其中，这非常令人困惑X，由于A是单位对角矩阵，所以答案为IS，“ B”，在这一行代码中没有任何反应（将X更改为B并没有帮 ...

可以从设备内核调用CULA例程吗？ - Can CULA routines be called from device kernels?

因此，我试图查看是否可以通过使用GPU通过同时解决一堆问题来解决一些超定方程组，从而获得显着的提速。我当前的算法涉及使用CULA Dense库中的LU分解函数，该库还必须在GPU和CPU之间来回切换，以初始化和运行CULA函数。我希望能够从CUDA内核中调用CULA函数，这样我就不必跳回 ...

MAGMA和Rcpp用于R中的线性代数 - MAGMA and Rcpp for linear algebra in R

我想知道是否有人尝试使用Rcpp和MAGMA通过使用CPU和GPU来加速R中的线性代数运算？我上个月尝试了culatools ，它与Rcpp （ link ）一起使用，但是culatools是一种商业产品，要花钱才能使用所有功能。 ...

culagesvd（）在CULA - culagesvd() in CULA

我想使用culadgesvd()函数来计算矩阵的SVD。我不清楚如何使用文档中的信息在C / C ++中实际使用它。任何人都可以给我一个完整的小C程序，一个模板，以显示该函数的基本使用方式吗？只需几行（使用culaInitialize()和culaShutdown()类的东西），我只 ...

GPUMLib在构建时无法解析的外部 - GPUMLib unresolved externals at build time

我正在尝试构建GPUMLib，但出现以下错误任何想法可能是什么原因造成的？请注意，这是整个库中未成功构建的唯一部分 ...

访问指向GPU上其他向量的指针的向量 - Access vector of pointers to other vectors on a GPU

因此，这是对我所提出问题的跟进，目前在某些代码的CPU版本中，我有许多类似以下内容的内容：其中A [i]将是某个大小的2D矩阵。我希望能够在使用CULA的GPU上做到这一点（我不只是在做乘法，所以我需要CULA中的线性代数运算），例如：但是我想在程序开始时将B预先存储 ...

如何在GPU上通过CULA使用3D矩阵？ - How to use 3D matrices with CULA on a GPU?

在某些代码的CPU版本中，我有许多类似于以下内容的内容：其中A[i]将是某个大小的2D矩阵。我希望能够在使用CULA的GPU上做到这一点（我不只是在做乘法，所以我需要CULA中的线性代数运算），例如：但是，我想在程序开始时将B预先存储在GPU上，因为它们没有变化，但是 ...

如何在CUDA中复制更大矩阵中的矩阵 - How to copy a matrix in a bigger matrix in CUDA

我想在我的GPU上设置一个大矩阵，以使用CULA解决相应的方程组。一些数字供您了解问题：现在，我想将小矩阵的每四分之一(100x100)复制到第二个矩阵的特定部分。我发现了两个可能但显然很慢的示例： cublasSetMatrix和cublasGetMatrix支持领先 ...

改进CUDA GPU上A * x = B的Matlab + CUSP MEX解决方案 - Improving Matlab + CUSP MEX solution for A*x=B on CUDA GPU

Matlab仍然无法在CUDA GPU上计算稀疏矩阵。也没有这样的工具箱（Jacket已停产）。这就是为什么我使用通过MEX文件集成到Matlab的CUSP。但是，我开发的工具有两个问题：对于大型方程组（实际上仅从100个元素开始），它非常不稳定，它比替代Mat ...

对于小数据集，为什么使用cula（dgesv）求解线性方程组比mkl（dgesv）慢 - Why is solving system of linear equations using cula(dgesv) slower than mkl (dgesv) for small data sets

我已经编写了CUDA C和C程序，以使用CULA例程dgesv和MKL例程dgesv求解矩阵方程Ax = b。对于较小的数据集，CPU程序似乎比GPU程序快。但是随着数据集增加到500个以上，GPU克服了CPU的困扰。我使用的戴尔笔记本电脑具有i3 CPU和Geforce 525M GP ...