cost 2204 ms
通过PID查询GPU memory使用情况和/或用户

[英]Query GPU memory usage and/or user by PID

我有一个在不同 GPU 上运行的进程的 PID 列表。 我想根据其PID获取每个进程的已用 GPU memory 。 nvidia-smi产生我想要的信息; 但是,我不知道如何使用 grep,因为 output 很复杂。 我已经在寻找如何去做,但我还没有找到任何直接的答案。 ...

cuda 代码可以在没有 cudaStreamDestroy() 的情况下完成吗?

[英]can a cuda code finish without cudaStreamDestroy()?

在我们的大型代码库中,我发现有多个cudaStreamCreate()函数。 但是,我在任何地方都找不到cudaStreamDestroy() 。 程序完成后销毁流是否重要,或者不需要担心这一点? 在这方面什么是好的编程实践? ...

2023-01-29 22:05:59   2   45    cuda / gpu  
CUDA kernel 用于确定比 OpenMP 代码慢的素数 - 我该如何优化它?

[英]CUDA kernel for determining primes slower than OpenMP code - how can I optimize it?

为了在 C++ 中使用 CUDA 练习编程。我做了一个练习,其中包括显示小于 N 的素数。对于每个代码,我注释掉了最后一个显示循环以仅比较计算时间。 Makefile: 这是我与 openMP 并行化的代码,运行时间为 1,306 秒: 这是在 1,613 秒内运行的相应 cuda 代码: 直觉 ...

cuLaunchKernel 失败:请求启动的资源太多

[英]cuLaunchKernel failed: too many resources requested for launch

我一直在尝试使用 pycuda 并行化我的代码。 我需要初始化 10^5 个线程,每个线程运行大约 4000 次迭代。 这应该符合我的 GPU 的块和网格限制(网格 = (98,1,1),块 = (1024,1,1))。 但是执行该程序会出现以下错误:“cuLaunchKernel 失败:请求启动的 ...

2023-01-26 15:03:38   1   34    cuda / pycuda  
CUDA_CACHE_DISABLE=1的作用是什么? 请详细说明

[英]What is the role of CUDA_CACHE_DISABLE=1? Please explain in detail

我在 run.sh 文件中看到一些使用 CUDA_CACHE_DISABLE=1 的代码。 但是网站上没有详尽的解释。 我从在线文档中得到的是一些抽象的东西,如下所示: 为即时编译禁用缓存(设置为 1 时)或启用缓存(设置为 0 时)。 禁用时,不会将二进制代码添加到缓存或从缓存中检索。 但什么是二 ...

我需要一个 CMakeLists.txt 等效于定义环境变量的此 Makefile 行

[英]I need a CMakeLists.txt equivalent to this Makefile line that defines an environment variable

我有一个 Makefile 包含以下几行,它在本地 CUDA 工具文件夹的根目录中四处寻找,并填充一个环境变量供以后使用。 在我的系统上,它现在生成“/usr/local/cuda-11.4”,用于查找标题和其他内容。 我的心愿是在我目前正在构建的 CMakeLists.txt 文件中复制它。 我想 ...

C++ 和 Fortran CUDA 基本示例之间的 nvprof output 差异

[英]Difference in nvprof output between a C++ and Fortran CUDA basic example

我在自学CUDA。 我的最终目标是将它应用到 Fortran,但是因为很多课程/视频都是基于 C/C++ 的,所以我经常最终会在两者中执行相同的练习(这是一件好事)。 目前,我正在尝试运行一个基本练习,它在 GPU 上执行 a(i) = b(i) + c(i)。为了完整起见,我发布了两个代码以进行比 ...

使用 Cuda 和 alignment 进行分配

[英]Allocation using Cuda with alignment

使用 cudaMallocHost() 和 cudaMalloc() 分配 memory 的最有效方法是什么,以便 memory 与某个值对齐。 就像 __mm_malloc 一样,您可以在其中传递大小为 alignment 作为参数。 ...

CUDA里面有kernel队列启用GPU吗?

[英]Is there a kernel queue inside CUDA enabled GPU?

当多个 PyTorch 进程在同一个 Nvidia GPU 上运行推理时。我想知道当来自不同上下文的两个 kernel 请求(cuLaunchKernel)由 CUDA 处理时会发生什么? CUDA GPU 可以为那些 kernel 请求创建 FIFO 队列吗? 在运行我的 PyTorch 程序 ...

CUDA 在 kernel 启动后对 cudaDeviceSynchronize 进行错误检查可能无法捕获所有错误?

[英]CUDA error checking on cudaDeviceSynchronize after kernel launch may not catch every error?

我最近在@talonmies 接受的答案中发现了一条评论,内容如下: 请注意,与所有其他 CUDA 错误不同,后续同步调用 CUDA 运行时 API 不会报告 kernel 启动错误。因此,仅将 gpuErrchk() 放在下一个 cudaMemcpy() 或 cudaDeviceSynchron ...

2023-01-20 20:11:22   1   31    cuda  
如何使用CMake链接CUDA动态库?

[英]How to link CUDA dynamic libraries using CMake?

我想知道如何使用 CMake 动态链接 CUDA 库,我知道它似乎需要一些额外的限制,但不知道具体如何去做。 这是我写的一个简单示例来说明我的问题。 目录结构:Dir/ ├── CMakeLists.txt ├── header.cuh ├── kernel.cu └── main.cpp 环境 ...

安装多个版本的 Cuda

[英]Install Multiple version of Cuda

我有一个 ubuntu 18.04 VM 系统,已经安装了 Cuda 10.2。 我必须在 GPU 上运行 coda 的训练,但是当我运行它时,我会遇到一些错误,例如: 所以我想我必须安装 Cuda 10.0. 是否可以安装多个版本的 Cuda? 如何添加 Cuda 10.0? 我想在 Nvidi ...

在NVIDIA gpu中,为什么运行时间随着线程数增加到gpu核心的3倍?

[英]In NVIDIA gpu, Why is the elapse time the same as the number of thread increase to 3 times of gpu core?

这是我的cuda代码: 我编译我的代码,在2080Ti上运行,我发现线程消耗时间大约是214毫秒,但是线程数是gpu核心的3倍(在2080Ti上是4352) 所以我的问题是为什么运行时间和线程数一样增加到gpu核的3倍? 意思是NVIDIA gpu的计算能力是gpu核心的3倍? ...

捕获从 cudaLaunchHostFunc 中的回调抛出的异常

[英]Catching an exception thrown from a callback in cudaLaunchHostFunc

我想检查托管 memory 中的错误标志,该标志可能由运行在某个 stream 上的 kernel 编写。根据错误标志,我需要抛出异常。 我会简单地同步这个 stream 并从主机检查标志,但我需要从 CUDA 图表内部这样做。 AFAIK 我需要以某种方式在 cudaLaunchHostFunc ...

NVIDIA GPU 如何获取指令成本?

[英]How to get instruction cost in NVIDIA GPU?

我想知道nvidia gpu有多少时钟指令开销,比如add, mul,ld/st等等,我该怎么做? 我写了一些代码在 2080Ti 上测试和运行 但是结果让我有点疑惑,结果output是: 在 gpu 阶段 1:6 0 为什么执行了这么多次 mul 指令,时钟成本只有 6 ? nvcc 编译器是否 ...

Jetson nano,可以在 python3 终端中使用 cuda,但不能在文件中使用

[英]Jetson nano, can use cuda in python3 terminal, but not in a file

如果我尝试在终端的 jetson nano 上使用 cuda: 但是,如果我启动一个具有相同内容的文件,则 output 为 False。 有谁知道如何解决这个问题? 我试过了:import os os.environ["CUDA_VISIBLE_DEVICES"] = "0" 并在 python ...

我如何使用原始指针 thrust::sort() 或 thrust::sort_by_key()

[英]How do I thrust::sort() or thrust::sort_by_key() with raw pointers

我想使用带有 thrust::sort() 和 thrust::sort_by_key() 的原始设备指针对数组进行排序,因为它使用基数排序。 数据位于原始 uint64_t 设备指针中,我使用随机元素进行初始化以进行测试。 我查看了推力库,看到了一些简单地传入一个数组变量和数组变量加上大小的示例 ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM