
[英]How to compute the achieved FLOPS of a MPI program which calls cuBlas function
我正在使用 cuBlas function 加速 MPI 程序。 为了评估应用程序的效率,我想知道程序运行后 GPU 的 FLOPS、memory 用法和其他内容,尤其是 FLOPS 。 我已阅读相关问题: 如何计算 kernel 的 Gflops 。 我认为答案提供了两种计算程序 FLOPS 的 ...
[英]How to compute the achieved FLOPS of a MPI program which calls cuBlas function
我正在使用 cuBlas function 加速 MPI 程序。 为了评估应用程序的效率,我想知道程序运行后 GPU 的 FLOPS、memory 用法和其他内容,尤其是 FLOPS 。 我已阅读相关问题: 如何计算 kernel 的 Gflops 。 我认为答案提供了两种计算程序 FLOPS 的 ...
[英]How to write the CMakeLists.txt file when use cuda-gdb?
我的 CMakeLists.txt: 我的 cuda 代码: then I use CUDA-gdb add a breakpoint at function helloFromGPU(void) , but I can't enter the kernel function helloFrom ...
[英]Cuda-gdb in vscode, Cannot find user-level thread for LWP 4077: generic error
我正在尝试在 vs 代码中设置 cuda 编程并遇到了 cuda-gdb 仅返回错误的问题。 我尝试使用常规 gdb 运行它,并且有效。 我正在使用wsl。 运行“CUDA C++:启动”在调试控制台中输出: 只需在终端中运行 Cuda-gdb 即可输出: 我的任务。json: 我的launch.j ...
[英]How to set filter in cuda-memcheck (or compute-sanitizer)
我正在开发一个相当大的项目(到目前为止大约有 1200 个内核)。 我有 1 个内核可能有一些内存竞争,这就是为什么它每次都给出不同的答案。 我想通过在该特定内核上执行 cuda-memcheck 来找到它。 所以很自然,我试图在cuda-memcheck中使用--filter选项和--tool r ...
[英]How to debug a CUDA program built by cmake in VIsual Studio Code?
我正在尝试在 Ubuntu 20 中使用 VS CODE、CMake 调试测试程序。我主要参考了 CUDA 调试器文档: https ://docs.nvidia.com/nsight-visual-studio-code-edition/cuda-debugger /index.html 。 但是 ...
[英]Why is cuda-gdb much slower than gdb in executing the same program without breakpoints in CUDA kernels?
我在使用 cuda-gdb 时遇到问题。 我的程序从 python 开始,它加载了一个包含 tensorflow 和 cuda 代码的共享库。 我用来启动 cuda-gdb 的命令是cuda-gdb --args python test_cr_bbp_tf2.py 。 在cuda-gdb中输入ru ...
[英]Is it possible to change the order in which CUDA thread blocks are scheduled when compiled with `--device-debug`?
简洁版本我有一个 kernel 启动了很多块,我知道blockIdx.y = 312发生了非法的 memory 读取。 在cuda-gdb下运行它会导致一次顺序执行块 16,执行到该块索引需要很长时间,即使有条件断点也是如此。 有什么方法可以更改在cuda-gdb下运行时安排的线程块中的顺序? 如 ...
[英]Cuda gdb print constant
我在 cuda-gdb 中,我可以使用((@global float *)array)[0] 但是如何在gdb中使用常量memory呢? 我尝试((@parameter float *)const_array) 我这样声明const_array : __constant__ float const_ ...
[英]Questions about CUDA macro __CUDA_ARCH__
我在 ttt.cu 中有一个简单的ttt.cu代码#include <iostream> __global__ void example(){ printf("__CUDA_ARCH__: %d \n", __CUDA_ARCH__); } int main(){ example& ...
[英]Why cuda-gdb shows unexpected memory values?
我正在使用nvcc -g -G gdbfail.cu编译以下代码片段。 当我运行cuda-gdb./a.out并将断点放在第 10 行( b 10 )时,运行代码( r ),并尝试在ptr中的地址打印值,我得到了令人惊讶的结果 当我在主机代码( b 23 , r )中做同样的事情时,我得到了预期的 ...
[英]Is there a way to access value of constant memory bank in CUDA
我一直在尝试调试使用内联 PTX 程序集的 cuda 程序。 具体来说,我在指令级别进行调试,并试图确定指令的 arguments 的值。 有时,反汇编包括对常量 memory 的引用。我试图让 gdb 打印此常量 memory 的值,但没有找到任何说明如何执行此操作的文档。 例如,反汇编包括 IA ...
[英]Cuda Error (209): cudaLaunchKernel returned cudaErrorNoKernelImageForDevice
操作系统:CentOS 7 Cuda 工具包版本:11.0 Nvidia 驱动程序和 GPU 信息: NVIDIA-SMI 450.51.05 驱动程序版本:450.51.05 CUDA 版本:11.0 GPU:Quadro M2000M nvidia-smi详细信息截图我对 cuda ...
[英]cuda-gdb giving error “warning: Cuda API error detected: cudaLaunchKernel returned (0x7)”
我正在尝试调试 cuda-gdb 中的程序。 我能够在主机 (CPU) 上运行的代码中成功设置断点,但是每当我尝试在 GPU 上运行的代码中设置断点时,调试器就会跳过断点并给我以下错误: 然后继续成功执行代码的rest。 我怎样才能使这些工作? ...
[英]Using CUDA-gdb with NVRTC
我有一个生成CUDA C ++源代码,使用NVRTC在运行时将其编译为PTX,然后使用CUDA驱动程序API从中创建CUDA模块的应用程序。 如果我使用cuda-gdb调试此应用程序,它将在回溯中显示内核(发生错误的位置),但不显示行号。 我将生成的源代码导出到文件中,并使用--di ...
[英]how to prevent <optimized out> values in cuda-gdb
如何防止cuda-gdb优化任何值(无论是设备还是主机,本地还是全局)? 我已经检查了nvidia论坛,但其中大多数已经有好几年了,似乎没有旧cuda版本的解决方案,但最新版本有哪一个(cuda 9.2和sm 61)? 我正在使用nvidia文档中描述的标志: -g - “生成主机 ...
[英]failed using cuda-gdb to launch program with CUPTI calls
我遇到了一个奇怪的问题:我有一个使用CUPTI callbackAPI监视程序中内核的程序。 直接启动时运行良好; 但是当我将它放在cuda-gdb下并运行时,它失败并显示以下错误: 错误:函数cuptiSubscribe(&subscriber,CUpti_CallbackFunc) ...
[英]Why does cuda-gdb launch multiple threads?
当我在cuda-gdb中启动程序时,输出如下: 我不明白为什么一开始会启动这些多个线程。 我尚未以多线程模式启动程序。 我正在使用MPI,但是我开始了一个过程。 那么,这些线程从哪里来? 这丝毫不影响我的调试过程。 只是我不明白这意味着什么。 ...
[英]CUDA-GDB view variables in C/C++
我已经安装了NVIDIA提供的最新版本的CUDA驱动程序 但是当我调试程序时,我得到一条关于python的错误消息。 我的程序是一个非常简单的程序,我读到它可能是一个错误处理python和gdb,但我不知道如何使用Ubuntu和Nvidia的最新软件修复错误。 有关如何解决此问 ...
[英]Checking currently residing entities in GPU memory
检查用cudaMalloc()分配的哪些(及其大小)实体当前驻留在GPU设备上的最简单方法是什么? 我想在函数内部找到内存泄漏,如果只调用一次然后退出,就没有内存泄漏(通过cuda-memcheck检查),但是如果多次调用,则内存占用空间会越来越大。 对于我的要求,Nsight Visu ...
[英]NSight gdb error
我尝试调试时遇到IDE NSight(eclipse)的“漂亮的打印机”选项有问题。 我用Google搜索,但我找不到解决问题的方法。 当我开始调试时,出现下一条消息: 我不确定问题出在哪里,但变量值没有出现,唯一的解决方案是禁用漂亮的打印选项。 我正在使用Ubuntu 1 ...