cost 304 ms
使用自定义扫描操作的 CUB 设备扫描失败 - CUB device scan with custom scan op fails

我正在使用CUB::InclusiveScan ,它采用自定义二进制非交换运算符。 当定义我的 否则,我的代码与文档中的示例代码几乎相同(除了我释放了分配的 memory 并添加了额外的同步以排除该问题)。 当factor为1.0时,这会产生正确的结果(这只是一个前缀和)。 当factor是其他值( ...

获取 CUDA 上所有内核的总执行时间 stream - Getting total execution time of all kernels on a CUDA stream

我知道如何使用CUDA 事件对一个 CUDA kernel 的执行进行计时,这对于简单的情况非常有用。 但在现实世界中,一个算法通常由一系列内核组成(例如, CUB::DeviceRadixSort算法会启动许多内核来完成工作)。 如果您正在运行您的算法的系统上还有许多其他流和内核也在运行中,那么 ...

使用 2D 倾斜 arrays 减少 CUB 总和 - CUB sum reduction with 2D pitched arrays

我正在尝试使用浮点/双精度类型的 CUB 和 2D arrays 执行总和减少。 虽然它适用于行+列的某些组合,但对于相对较大的 arrays,我在上次传输期间收到非法 memory 访问错误。 一个最小的例子如下: 错误在“copy final::”处抛出。 我对为什么某些行 x 列有效而其他行无 ...

2021-03-10 20:06:50   1   29    cuda / cub  
在 cupy 中启用 cub 的正确方法是什么? - What is the proper way to enable cub in cupy?

我正在尝试找出在cupy中启用cub的正确方法,但到目前为止还没有成功。 我查看了文档,但找不到任何东西。 目前我启用cub是这样的: 在执行上述代码之前, cub处于禁用状态。 我通过运行确认: 它返回一个空列表 ( [] )。 运行第一个代码片段中的代码后,上述函数返回[1] (无论是什么意思 ...

如果我使用 31 个块,为什么这种 CUDA 减少会失败? - Why does this CUDA reduction fail if I use 31 blocks?

以下 CUDA 代码采用标签列表 (0, 1, 2, 3, ...) 并找到这些标签的权重总和。 为了加速计算,我使用共享内存,以便每个线程维护自己的运行总和。 在计算结束时,我执行 CUB 块范围的缩减,然后对全局内存进行原子添加。 如果我使用的块数少于 30 个,CPU 和 GPU 会同意结 ...

2020-10-02 22:40:02   1   56    cuda / cub  
在我自己的开源项目中使用修改后的 C++ 头文件库的常用方法是什么? - What is the usual way to use a modified C++ header-only library in my own open source project?

我想在我自己的开源项目中使用修改后的 C++ 头库,但不确定通常的做法是什么。 例如,要在我的项目中使用原始头库“CUB”,我只需要: 下载小熊 在我的源文件中包含“umbrella”头文件 在编译文件中指定我电脑中cub所在位置的路径 但是,我在cub中修改了一些源文件(少于五个文件 ...

有没有办法在奇数大小的数据阵列上使用CUB :: BlockScan? - Is there a way to use CUB::BlockScan on oddly sized data arrays?

所有示例都对大小为32的倍数的数组执行扫描。最快的示例使用256个或更多线程,并为每个线程分配4个或更多元素。 这意味着,如果我有一个大小为450的数组,则大概必须将其填充到512,并执行256个线程,每个线程分配2个元素。 但是,在我的特定情况下,必须填充每个阵列是不可行的。 ...

2019-04-27 00:36:11   1   50    cuda / cub  
用迭代器进行CUB排序 - CUB sort with iterator

我想一次转换值并对其进行排序,如下所示: 但是,SortKeys需要原始指针而不是迭代器。 仍然可以使用迭代器来完成这项工作吗? 我知道这可以通过推力实现,但是我想使用CUB。 感谢您的建议。 ...

CUDA_CUB的dot_product - dot_product with CUDA_CUB

我已经使用cuda cub成功测试了归约总和(如上面的代码片段所示),我想基于此代码执行两个向量的内积。 但是我对此有些困惑: 我们需要两个输入向量作为inner_product,需要我对这两个输入向量进行分量逐次相乘,然后对所得的新向量进行归约和。 在cuda cub的代 ...

使用2D块网格减少CUB - CUB reduction using 2D grid of blocks

我正在尝试使用CUB减少方法求和。 最大的问题是:使用二维网格时,我不确定如何将每个块的值返回给主机。 正在发生的事情是,如果价值GRID_SIZE是一样的BLOCK_SIZE ,因为上面写的。 计算正确。 但是,如果我更改GRID_SIZE的值,结果将出错。 这使我认为该代 ...

2018-06-01 23:03:56   1   189    cuda / cub  

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM