
[英]Query GPU memory usage and/or user by PID
我有一个在不同 GPU 上运行的进程的 PID 列表。 我想根据其PID获取每个进程的已用 GPU memory 。 nvidia-smi产生我想要的信息; 但是,我不知道如何使用 grep,因为 output 很复杂。 我已经在寻找如何去做,但我还没有找到任何直接的答案。 ...
[英]Query GPU memory usage and/or user by PID
我有一个在不同 GPU 上运行的进程的 PID 列表。 我想根据其PID获取每个进程的已用 GPU memory 。 nvidia-smi产生我想要的信息; 但是,我不知道如何使用 grep,因为 output 很复杂。 我已经在寻找如何去做,但我还没有找到任何直接的答案。 ...
[英]can a cuda code finish without cudaStreamDestroy()?
在我们的大型代码库中,我发现有多个cudaStreamCreate()函数。 但是,我在任何地方都找不到cudaStreamDestroy() 。 程序完成后销毁流是否重要,或者不需要担心这一点? 在这方面什么是好的编程实践? ...
[英]CUDA kernel for determining primes slower than OpenMP code - how can I optimize it?
为了在 C++ 中使用 CUDA 练习编程。我做了一个练习,其中包括显示小于 N 的素数。对于每个代码,我注释掉了最后一个显示循环以仅比较计算时间。 Makefile: 这是我与 openMP 并行化的代码,运行时间为 1,306 秒: 这是在 1,613 秒内运行的相应 cuda 代码: 直觉 ...
[英]VS2013 and CUDA 12 compatibility
错误 2 error MSB3721: The command ""C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.0\bin\nvcc.exe" -gencode=arch=compute_35,code="sm_35,compute_ ...
[英]cuLaunchKernel failed: too many resources requested for launch
我一直在尝试使用 pycuda 并行化我的代码。 我需要初始化 10^5 个线程,每个线程运行大约 4000 次迭代。 这应该符合我的 GPU 的块和网格限制(网格 = (98,1,1),块 = (1024,1,1))。 但是执行该程序会出现以下错误:“cuLaunchKernel 失败:请求启动的 ...
[英]What is the role of CUDA_CACHE_DISABLE=1? Please explain in detail
我在 run.sh 文件中看到一些使用 CUDA_CACHE_DISABLE=1 的代码。 但是网站上没有详尽的解释。 我从在线文档中得到的是一些抽象的东西,如下所示: 为即时编译禁用缓存(设置为 1 时)或启用缓存(设置为 0 时)。 禁用时,不会将二进制代码添加到缓存或从缓存中检索。 但什么是二 ...
[英]I need a CMakeLists.txt equivalent to this Makefile line that defines an environment variable
我有一个 Makefile 包含以下几行,它在本地 CUDA 工具文件夹的根目录中四处寻找,并填充一个环境变量供以后使用。 在我的系统上,它现在生成“/usr/local/cuda-11.4”,用于查找标题和其他内容。 我的心愿是在我目前正在构建的 CMakeLists.txt 文件中复制它。 我想 ...
[英]Difference in nvprof output between a C++ and Fortran CUDA basic example
我在自学CUDA。 我的最终目标是将它应用到 Fortran,但是因为很多课程/视频都是基于 C/C++ 的,所以我经常最终会在两者中执行相同的练习(这是一件好事)。 目前,我正在尝试运行一个基本练习,它在 GPU 上执行 a(i) = b(i) + c(i)。为了完整起见,我发布了两个代码以进行比 ...
[英]Allocation using Cuda with alignment
使用 cudaMallocHost() 和 cudaMalloc() 分配 memory 的最有效方法是什么,以便 memory 与某个值对齐。 就像 __mm_malloc 一样,您可以在其中传递大小为 alignment 作为参数。 ...
[英]Is there a kernel queue inside CUDA enabled GPU?
当多个 PyTorch 进程在同一个 Nvidia GPU 上运行推理时。我想知道当来自不同上下文的两个 kernel 请求(cuLaunchKernel)由 CUDA 处理时会发生什么? CUDA GPU 可以为那些 kernel 请求创建 FIFO 队列吗? 在运行我的 PyTorch 程序 ...
[英]CUDA error checking on cudaDeviceSynchronize after kernel launch may not catch every error?
我最近在@talonmies 接受的答案中发现了一条评论,内容如下: 请注意,与所有其他 CUDA 错误不同,后续同步调用 CUDA 运行时 API 不会报告 kernel 启动错误。因此,仅将 gpuErrchk() 放在下一个 cudaMemcpy() 或 cudaDeviceSynchron ...
[英]How to link CUDA dynamic libraries using CMake?
我想知道如何使用 CMake 动态链接 CUDA 库,我知道它似乎需要一些额外的限制,但不知道具体如何去做。 这是我写的一个简单示例来说明我的问题。 目录结构:Dir/ ├── CMakeLists.txt ├── header.cuh ├── kernel.cu └── main.cpp 环境 ...
[英]Install Multiple version of Cuda
我有一个 ubuntu 18.04 VM 系统,已经安装了 Cuda 10.2。 我必须在 GPU 上运行 coda 的训练,但是当我运行它时,我会遇到一些错误,例如: 所以我想我必须安装 Cuda 10.0. 是否可以安装多个版本的 Cuda? 如何添加 Cuda 10.0? 我想在 Nvidi ...
[英]In NVIDIA gpu, Why is the elapse time the same as the number of thread increase to 3 times of gpu core?
这是我的cuda代码: 我编译我的代码,在2080Ti上运行,我发现线程消耗时间大约是214毫秒,但是线程数是gpu核心的3倍(在2080Ti上是4352) 所以我的问题是为什么运行时间和线程数一样增加到gpu核的3倍? 意思是NVIDIA gpu的计算能力是gpu核心的3倍? ...
[英]Catching an exception thrown from a callback in cudaLaunchHostFunc
我想检查托管 memory 中的错误标志,该标志可能由运行在某个 stream 上的 kernel 编写。根据错误标志,我需要抛出异常。 我会简单地同步这个 stream 并从主机检查标志,但我需要从 CUDA 图表内部这样做。 AFAIK 我需要以某种方式在 cudaLaunchHostFunc ...
[英]How to get instruction cost in NVIDIA GPU?
我想知道nvidia gpu有多少时钟指令开销,比如add, mul,ld/st等等,我该怎么做? 我写了一些代码在 2080Ti 上测试和运行 但是结果让我有点疑惑,结果output是: 在 gpu 阶段 1:6 0 为什么执行了这么多次 mul 指令,时钟成本只有 6 ? nvcc 编译器是否 ...
[英]Jetson nano, can use cuda in python3 terminal, but not in a file
如果我尝试在终端的 jetson nano 上使用 cuda: 但是,如果我启动一个具有相同内容的文件,则 output 为 False。 有谁知道如何解决这个问题? 我试过了:import os os.environ["CUDA_VISIBLE_DEVICES"] = "0" 并在 python ...
[英]What should I set the flags field of CUDA_BATCH_MEM_OP_NODE_PARAMS?
CUDA 图 API 公开了一个 function 调用,用于将“批处理 memory 操作”节点添加到图中: 但是这个 API 调用的文档没有解释...的标志字段的用途,以及应该将标志设置为什么。 那么我应该传递什么价值呢? ...
[英]How do I thrust::sort() or thrust::sort_by_key() with raw pointers
我想使用带有 thrust::sort() 和 thrust::sort_by_key() 的原始设备指针对数组进行排序,因为它使用基数排序。 数据位于原始 uint64_t 设备指针中,我使用随机元素进行初始化以进行测试。 我查看了推力库,看到了一些简单地传入一个数组变量和数组变量加上大小的示例 ...
[英]AttributeError: module 'torch._C' has no attribute '_cuda_setDevice'
我正在使用以下链接探索 SimSwap https://github.com/neuralchen/SimSwap但遇到一个问题是 AttributeError: module 'torch._C' has no attribute '_cuda_setDevice', when running ...