标签[cub] - 堆栈内存溢出

使用自定义扫描操作的 CUB 设备扫描失败 - CUB device scan with custom scan op fails

我正在使用CUB::InclusiveScan ，它采用自定义二进制非交换运算符。当定义我的否则，我的代码与文档中的示例代码几乎相同（除了我释放了分配的 memory 并添加了额外的同步以排除该问题）。当factor为1.0时，这会产生正确的结果（这只是一个前缀和）。当factor是其他值（ ...

获取 CUDA 上所有内核的总执行时间 stream - Getting total execution time of all kernels on a CUDA stream

我知道如何使用CUDA 事件对一个 CUDA kernel 的执行进行计时，这对于简单的情况非常有用。但在现实世界中，一个算法通常由一系列内核组成（例如， CUB::DeviceRadixSort算法会启动许多内核来完成工作）。如果您正在运行您的算法的系统上还有许多其他流和内核也在运行中，那么 ...

cub::DeviceRadixSort 在指定结束位时失败 - cub::DeviceRadixSort fails when specifying end bit

我正在使用 CUB 库的 GPU 基数排序算法对 N 个 32 位无符号整数进行排序，这些整数的值都只使用其 32 位中的 k 个，从最低有效位开始。因此，我在调用cub::DeviceRadixSort::SortKeys时指定了位子范围 [begin_bit, end_bit) 以期提高排序性 ...

使用 2D 倾斜 arrays 减少 CUB 总和 - CUB sum reduction with 2D pitched arrays

我正在尝试使用浮点/双精度类型的 CUB 和 2D arrays 执行总和减少。虽然它适用于行+列的某些组合，但对于相对较大的 arrays，我在上次传输期间收到非法 memory 访问错误。一个最小的例子如下：错误在“copy final::”处抛出。我对为什么某些行 x 列有效而其他行无 ...

在 cupy 中启用 cub 的正确方法是什么？ - What is the proper way to enable cub in cupy?

我正在尝试找出在cupy中启用cub的正确方法，但到目前为止还没有成功。我查看了文档，但找不到任何东西。目前我启用cub是这样的：在执行上述代码之前， cub处于禁用状态。我通过运行确认：它返回一个空列表 ( [] )。运行第一个代码片段中的代码后，上述函数返回[1] （无论是什么意思 ...

如果我使用 31 个块，为什么这种 CUDA 减少会失败？ - Why does this CUDA reduction fail if I use 31 blocks?

以下 CUDA 代码采用标签列表 (0, 1, 2, 3, ...) 并找到这些标签的权重总和。为了加速计算，我使用共享内存，以便每个线程维护自己的运行总和。在计算结束时，我执行 CUB 块范围的缩减，然后对全局内存进行原子添加。如果我使用的块数少于 30 个，CPU 和 GPU 会同意结 ...

如何使用 cub::DeviceReduce::ArgMin() - How to use cub::DeviceReduce::ArgMin()

我对如何使用cub::DeviceReduce::ArgMin()有一些困惑。这里我复制了CUB文档中的代码。问题如下：如果d_in是指向某个GPU 内存（设备）的指针，那么如何初始化d_out的指针？如果ArgMin()的操作在设备 (GPU) 中完成，我如何将结果复制到我的 ...

在我自己的开源项目中使用修改后的 C++ 头文件库的常用方法是什么？ - What is the usual way to use a modified C++ header-only library in my own open source project?

我想在我自己的开源项目中使用修改后的 C++ 头库，但不确定通常的做法是什么。例如，要在我的项目中使用原始头库“CUB”，我只需要：下载小熊在我的源文件中包含“umbrella”头文件在编译文件中指定我电脑中cub所在位置的路径但是，我在cub中修改了一些源文件（少于五个文件 ...

如何用CUB库编译C++？ - How to compile C++ with CUB library?

我正在使用 CUB 设备功能，就像这里的示例（ https://forums.developer.nvidia.com/t/cub-library/37675/2 ）。我能够使用nvcc编译上面示例中的 .cu 源文件。但是，我想知道是否可以在 .cpp 源文件中调用CUB设备函数并编译 .c ...

有没有办法在奇数大小的数据阵列上使用CUB :: BlockScan？ - Is there a way to use CUB::BlockScan on oddly sized data arrays?

所有示例都对大小为32的倍数的数组执行扫描。最快的示例使用256个或更多线程，并为每个线程分配4个或更多元素。这意味着，如果我有一个大小为450的数组，则大概必须将其填充到512，并执行256个线程，每个线程分配2个元素。但是，在我的特定情况下，必须填充每个阵列是不可行的。 ...

用迭代器进行CUB排序 - CUB sort with iterator

我想一次转换值并对其进行排序，如下所示：但是，SortKeys需要原始指针而不是迭代器。仍然可以使用迭代器来完成这项工作吗？我知道这可以通过推力实现，但是我想使用CUB。感谢您的建议。 ...

CUDA_CUB的dot_product - dot_product with CUDA_CUB

我已经使用cuda cub成功测试了归约总和（如上面的代码片段所示），我想基于此代码执行两个向量的内积。但是我对此有些困惑：我们需要两个输入向量作为inner_product，需要我对这两个输入向量进行分量逐次相乘，然后对所得的新向量进行归约和。在cuda cub的代 ...

使用2D块网格减少CUB - CUB reduction using 2D grid of blocks

我正在尝试使用CUB减少方法求和。最大的问题是：使用二维网格时，我不确定如何将每个块的值返回给主机。正在发生的事情是，如果价值GRID_SIZE是一样的BLOCK_SIZE ，因为上面写的。计算正确。但是，如果我更改GRID_SIZE的值，结果将出错。这使我认为该代 ...

致命错误：cub / cub.cuh：没有这样的文件或目录 - fatal error: cub/cub.cuh: No such file or directory

我是CUDA和CUB的新手。我找到以下代码并尝试对其进行编译，但出现此错误：致命错误：cub / cub.cuh：没有这样的文件或目录。 CUDA的版本是7.0.27如何解决此错误？谢谢！ ...

在Nvidia Nsight中安装CUB - Installing CUB in nvidia nsight

我想将CUB与NVIDIA Nsight一起使用。我这样做是在网上寻找教程，但即使在CUB的官方页面中也找不到任何东西。为了在使用NVIDIA Nsight编写的代码中使用CUB，我需要做什么？ ...

与推力相似的CUB模板 - CUB template similar to thrust

以下是推力代码：在这里， thrust::reduce接受第一个和最后一个输入迭代器，推力将值返回给CPU（复制到h_in_value）可以使用CUB获得此功能吗？ First和Last迭代器作为输入将结果返回给主机 ...

指定gencode时，CUB ReduceByKey的结果不正确 - Incorrect results with CUB ReduceByKey when specifying gencode

在我的一个项目中，使用CUB的DeviceReduce :: ReduceByKey时看到一些不正确的结果。但是，对推力:: reduce_by_key使用相同的输入/输出会产生预期的结果。当我包含“ -gencode arch = compute_35，code = sm_35” ...

使用 CUB 和 Thrust 进行并行和扫描 - Using both CUB and Thrust for parallel sum scan

我正在尝试对测试向量进行并行求和扫描。为此，我同时使用了 Thrust 和 CUB 库我得到的错误是我无法正确解释错误，我确信我处理原始指针的方式存在问题。任何帮助表示赞赏。相关链接：如何在一个 CUDA 代码中使用 CUB 和 Thrust ...

Cub库支持的最大大小 - maximum supported size for cub library

有谁知道cub :: scan的最大支持大小是多少？我获得了超过5亿个输入量的核心转储。我想确保我没有做错任何事情... 这是我的代码： ...

如何对CUDA向量类型的数组进行排序 - How to sort an array of CUDA vector types

具体来说，我该如何对float3数组进行float3 ？这样， .x分量是主要的排序标准， .y分量是次要的排序标准， .z分量是第三级的排序标准。是否有一个简单的解决方案可以对cub:: DeviceRadixSort或thrust::sort_by_key进行单个调用？目 ...