标签[cuda] - 堆栈内存溢出

为什么在编译 CUDA C++ 项目时 nvcc 不起作用而 cmake 起作用？ - why nvcc doesn't work while cmake works when compiling a CUDA C++ project?

我有一个写在 CUDA C++ 中的代码，我可以使用 CMake 构建这个项目，像往常一样制作和运行它。但是当我尝试使用 nvcc 对其进行调试时，它会抛出类似的错误我的 CUDA 版本是：我有一台带 4 个 GPU 的服务器。有什么想法可能是什么问题吗？我尝试了以下代码：所有源文件和 ...

通过PID查询GPU memory使用情况和/或用户 - Query GPU memory usage and/or user by PID

我有一个在不同 GPU 上运行的进程的 PID 列表。我想根据其PID获取每个进程的已用 GPU memory 。 nvidia-smi产生我想要的信息；但是，我不知道如何使用 grep，因为 output 很复杂。我已经在寻找如何去做，但我还没有找到任何直接的答案。 ...

cuda 代码可以在没有 cudaStreamDestroy() 的情况下完成吗？ - can a cuda code finish without cudaStreamDestroy()?

在我们的大型代码库中，我发现有多个cudaStreamCreate()函数。但是，我在任何地方都找不到cudaStreamDestroy() 。程序完成后销毁流是否重要，或者不需要担心这一点？在这方面什么是好的编程实践？ ...

CUDA kernel 用于确定比 OpenMP 代码慢的素数 - 我该如何优化它？ - CUDA kernel for determining primes slower than OpenMP code - how can I optimize it?

为了在 C++ 中使用 CUDA 练习编程。我做了一个练习，其中包括显示小于 N 的素数。对于每个代码，我注释掉了最后一个显示循环以仅比较计算时间。 Makefile：这是我与 openMP 并行化的代码，运行时间为 1,306 秒：这是在 1,613 秒内运行的相应 cuda 代码：直觉 ...

VS2013与CUDA 12兼容 - VS2013 and CUDA 12 compatibility

错误 2 error MSB3721: The command ""C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.0\bin\nvcc.exe" -gencode=arch=compute_35,code="sm_35,compute_ ...

cuLaunchKernel 失败：请求启动的资源太多 - cuLaunchKernel failed: too many resources requested for launch

我一直在尝试使用 pycuda 并行化我的代码。我需要初始化 10^5 个线程，每个线程运行大约 4000 次迭代。这应该符合我的 GPU 的块和网格限制（网格 = (98,1,1)，块 = (1024,1,1)）。但是执行该程序会出现以下错误：“cuLaunchKernel 失败：请求启动的 ...

CUDA_CACHE_DISABLE=1的作用是什么？请详细说明 - What is the role of CUDA_CACHE_DISABLE=1? Please explain in detail

我在 run.sh 文件中看到一些使用 CUDA_CACHE_DISABLE=1 的代码。但是网站上没有详尽的解释。我从在线文档中得到的是一些抽象的东西，如下所示：为即时编译禁用缓存（设置为 1 时）或启用缓存（设置为 0 时）。禁用时，不会将二进制代码添加到缓存或从缓存中检索。但什么是二 ...

我需要一个 CMakeLists.txt 等效于定义环境变量的此 Makefile 行 - I need a CMakeLists.txt equivalent to this Makefile line that defines an environment variable

我有一个 Makefile 包含以下几行，它在本地 CUDA 工具文件夹的根目录中四处寻找，并填充一个环境变量供以后使用。在我的系统上，它现在生成“/usr/local/cuda-11.4”，用于查找标题和其他内容。我的心愿是在我目前正在构建的 CMakeLists.txt 文件中复制它。我想 ...

C++ 和 Fortran CUDA 基本示例之间的 nvprof output 差异 - Difference in nvprof output between a C++ and Fortran CUDA basic example

我在自学CUDA。我的最终目标是将它应用到 Fortran，但是因为很多课程/视频都是基于 C/C++ 的，所以我经常最终会在两者中执行相同的练习（这是一件好事）。目前，我正在尝试运行一个基本练习，它在 GPU 上执行 a(i) = b(i) + c(i)。为了完整起见，我发布了两个代码以进行比 ...

使用 Cuda 和 alignment 进行分配 - Allocation using Cuda with alignment

使用 cudaMallocHost() 和 cudaMalloc() 分配 memory 的最有效方法是什么，以便 memory 与某个值对齐。就像 __mm_malloc 一样，您可以在其中传递大小为 alignment 作为参数。 ...

CUDA里面有kernel队列启用GPU吗？ - Is there a kernel queue inside CUDA enabled GPU?

当多个 PyTorch 进程在同一个 Nvidia GPU 上运行推理时。我想知道当来自不同上下文的两个 kernel 请求（cuLaunchKernel）由 CUDA 处理时会发生什么？ CUDA GPU 可以为那些 kernel 请求创建 FIFO 队列吗？在运行我的 PyTorch 程序 ...

CUDA 在 kernel 启动后对 cudaDeviceSynchronize 进行错误检查可能无法捕获所有错误？ - CUDA error checking on cudaDeviceSynchronize after kernel launch may not catch every error?

我最近在@talonmies 接受的答案中发现了一条评论，内容如下：请注意，与所有其他 CUDA 错误不同，后续同步调用 CUDA 运行时 API 不会报告 kernel 启动错误。因此，仅将 gpuErrchk() 放在下一个 cudaMemcpy() 或 cudaDeviceSynchron ...

如何使用CMake链接CUDA动态库？ - How to link CUDA dynamic libraries using CMake?

我想知道如何使用 CMake 动态链接 CUDA 库，我知道它似乎需要一些额外的限制，但不知道具体如何去做。这是我写的一个简单示例来说明我的问题。目录结构：Dir/ ├── CMakeLists.txt ├── header.cuh ├── kernel.cu └── main.cpp 环境 ...

安装多个版本的 Cuda - Install Multiple version of Cuda

我有一个 ubuntu 18.04 VM 系统，已经安装了 Cuda 10.2。我必须在 GPU 上运行 coda 的训练，但是当我运行它时，我会遇到一些错误，例如：所以我想我必须安装 Cuda 10.0. 是否可以安装多个版本的 Cuda？如何添加 Cuda 10.0？我想在 Nvidi ...

在NVIDIA gpu中，为什么运行时间随着线程数增加到gpu核心的3倍？ - In NVIDIA gpu， Why is the elapse time the same as the number of thread increase to 3 times of gpu core？

这是我的cuda代码：我编译我的代码，在2080Ti上运行，我发现线程消耗时间大约是214毫秒，但是线程数是gpu核心的3倍（在2080Ti上是4352）所以我的问题是为什么运行时间和线程数一样增加到gpu核的3倍？意思是NVIDIA gpu的计算能力是gpu核心的3倍？ ...

捕获从 cudaLaunchHostFunc 中的回调抛出的异常 - Catching an exception thrown from a callback in cudaLaunchHostFunc

我想检查托管 memory 中的错误标志，该标志可能由运行在某个 stream 上的 kernel 编写。根据错误标志，我需要抛出异常。我会简单地同步这个 stream 并从主机检查标志，但我需要从 CUDA 图表内部这样做。 AFAIK 我需要以某种方式在 cudaLaunchHostFunc ...

NVIDIA GPU 如何获取指令成本？ - How to get instruction cost in NVIDIA GPU？

我想知道nvidia gpu有多少时钟指令开销，比如add, mul，ld/st等等，我该怎么做？我写了一些代码在 2080Ti 上测试和运行但是结果让我有点疑惑，结果output是：在 gpu 阶段 1:6 0 为什么执行了这么多次 mul 指令，时钟成本只有 6 ？ nvcc 编译器是否 ...

Jetson nano，可以在 python3 终端中使用 cuda，但不能在文件中使用 - Jetson nano, can use cuda in python3 terminal, but not in a file

如果我尝试在终端的 jetson nano 上使用 cuda：但是，如果我启动一个具有相同内容的文件，则 output 为 False。有谁知道如何解决这个问题？我试过了：import os os.environ["CUDA_VISIBLE_DEVICES"] = "0" 并在 python ...

我应该如何设置 CUDA_BATCH_MEM_OP_NODE_PARAMS 的标志字段？ - What should I set the flags field of CUDA_BATCH_MEM_OP_NODE_PARAMS?

CUDA 图 API 公开了一个 function 调用，用于将“批处理 memory 操作”节点添加到图中：但是这个 API 调用的文档没有解释...的标志字段的用途，以及应该将标志设置为什么。那么我应该传递什么价值呢？ ...

我如何使用原始指针 thrust::sort() 或 thrust::sort_by_key() - How do I thrust::sort() or thrust::sort_by_key() with raw pointers

我想使用带有 thrust::sort() 和 thrust::sort_by_key() 的原始设备指针对数组进行排序，因为它使用基数排序。数据位于原始 uint64_t 设备指针中，我使用随机元素进行初始化以进行测试。我查看了推力库，看到了一些简单地传入一个数组变量和数组变量加上大小的示例 ...