标签[nvprof] - 堆栈内存溢出

使用所有指标启动 nvprof 以分析 CUDA 应用程序时出现 ERR_NVGPUCTRPERM 错误 - ERR_NVGPUCTRPERM error when launching nvprof with all metrics to profile CUDA application

GPU 特斯拉 M60 司机：510.47.03 OSL Ubuntu 20.04.5 LTS CUDA 版本：11.6 尝试使用下面的代码来获取有关分析 CUDA 应用程序的完整指标会导致以下错误。代码错误 ==8169== 警告：ERR_NVGPUCTRPERM - 用户无权在目标设备 ...

探查器（nvvp 和 nvprof）不显示“页面错误”信息 - Profilers (nvvp and nvprof) not showing "Page Fault" information

我正在分析 NVIDIA 开发人员论坛上针对 CUDA 初学者的统一 Memory 中提供的测试代码。代码：问题：作者提供的分析结果显示了有关“页面错误”的信息，但是当我运行nvprof和nvvp分析器时，我没有得到任何有关页面错误的信息。是否有任何标志或需要明确设置的东西才能获取该信息？我 ...

nvprof 警告：可能未在 LD_LIBRARY_PATH 中设置 CUPTI 和 CUDA 注入库的路径 - nvprof Warning: The path to CUPTI and CUDA Injection libraries might not be set in LD_LIBRARY_PATH

当我尝试通过 Nvidia 的nvprof分析器运行我用 OpenACC 开发的程序时，我收到了主题中的消息，如下所示：如果我使用-o [output_file]运行nvprof ，则不会出现警告消息，但不会创建输出文件。这里可能有什么问题？ LD_LIBRARY_PATH在我的.bas ...

CUDA Profiler 中“flop_count_sp”和“inst_fp_32”指标的含义 - Meaning of the “flop_count_sp” and “inst_fp_32” metric in CUDA Profiler

根据分析器用户指南： flop_count_sp：由非谓词线程（加法、乘法和乘法累加）执行的单精度浮点运算数。每个乘加运算对计数贡献 2。计数不包括特殊操作。 inst_fp_32：非谓词线程（算术、比较等）执行的单精度浮点指令数我有一个带有分析器输出的内核，可以添加到以下 ...

NVIDIA Visual Profiler：kernel 边界数据不足 - NVIDIA Visual Profiler: Insufficient kernel bounds data

我试图了解为什么我的 CUDA kernel 的性能相对较低，我希望通过 NVIDIA 分析器得到一些答案。我的 CUDA 程序是一个大型应用程序的“简化”版本，用于隔离和运行有问题的 kernel。该程序多次启动 kernel 以测量其执行时间作为多次启动的平均值。在计时循环之后，发出从设备 ...

为什么我没有得到“thread_inst_executed” - Why don't I get “thread_inst_executed”

当我列出 nvprof 的指标时nvprof --query-events 我懂了： thread_inst_executed：活动线程执行的指令数。对于每条指令，它会增加执行该指令的线程数，包括断定线程数。它不包括重播。我想使用这个指标，所以我使用以下方法收集指标： nvprof -- ...

P100 上的 dram_write_bytes 结果 - dram_write_bytes result on P100

我使用 nvprof 在 P100 上分析了一个简单的 vecadd 示例（n=1024），但观察到 dram_write_bytes 只有 256（而不是我预期的 1024*4）。有人可以解释为什么这个数字很小吗？我需要添加哪些其他指标才能计入全局 memory 写入？谢谢。 float_ ...

nvprof 命令错误：找不到 cupti64_102.dll - nvprof command error: cupti64_102.dll was not found

当我尝试在命令提示符中运行nvprof命令时，系统错误弹出并提示“代码执行无法继续，因为未找到 cupti64_102.dll。重新安装程序可能会解决此问题。” 我已经安装了 CUDA 工具包 10.2，但cupti64_102.dll不在/bin中。系统：Windows 10、Quadro K ...

windows下运行nvprof --metrics命令报错：cuda profiling error - Running nvprof --metrics command under windows gives an error：cuda profiling error

windows下运行nvprof --metrics命令报错：错误1 如果我只用nvprof命令是不会报错的：我想问一下是什么问题，如何使用命令 nvprof --metrics ...

使用 nvprof 分析 Tensorflow 代码时如何捕获 GPU 数据？ - How to capture GPU data when profiling Tensorflow code with nvprof?

我想在多 GPU 系统上分析用 Tensorflow 编写的转换器模型的训练循环。由于代码不支持 tf2，我不能使用内置但实验性的分析器。因此，我想使用 nvprof + nvvp（CUDA 10.1，驱动程序：418）。我可以在没有任何错误的情况下分析代码，但是，在 nvvp 中检查结果时 ...

什么是 redzone_checker？在 GPU 上分析我的 tensorflow 应用程序 - What is redzone_checker? Profiling my tensorflow application on a GPU

我正在使用 NVIDIA 的命令行 Visual Profiler nvprof 分析 tensorflow GPU 应用程序，其中一个已启动且在分析中非常活跃的内核称为 redzone_checker？我一生都无法在互联网上的任何地方找到有关这意味着什么的任何有用信息...... 任何帮助或提 ...

如何在不使用 ctrl-c 的情况下停止运行 TensorRT 服务器（用于使用 nvprof 进行分析） - How to stop running TensorRT server without using ctrl-c (for profiling with nvprof)

我正在运行 nvprof 来分析 TensorRT 服务器-客户端模型的 GPU 使用情况。这是我在做什么：在启用nvprof --profile-all-processes -o results%p.nvvp容器中的终端 1 上运行 nvprof， nvprof --profile-al ...

Cuda 分析器的“gld_transactions_per_request”指标中的事务和请求是什么？ - What is a transaction and a request in the 'gld_transactions_per_request' metric of the Cuda profiler?

为了完美合并访问4096双精度数组，每个 8 个字节， nvprof在 Nvidia Tesla V100 上报告以下指标：我找不到关于什么是事务和对全局memory的请求的具体定义，所以我无法理解这些指标。因此我的问题：如何定义 memory请求？一笔memory交易是怎么定义的？ g ...

CUDA_VISIBLE_DEVICES 上的 nvprof 警告 - nvprof warning on CUDA_VISIBLE_DEVICES

当我在 pytorch 中使用 os.environ['CUDA_VISIBLE_DEVICES'] 时，我收到以下消息这实际上意味着什么？如何通过使用“CUDA_VISIBLE_DEVICES”（不是 torch.cuda.set_device()）来避免这种情况？这是pytorch ...

使用 nvprof 进行分析时没有 GPU 活动 - No GPU activities in profiling with nvprof

我在nvprof.exe上运行 nvprof.exe 来初始化数据，调用三个内核并释放数据。所有的配置文件都应该这样，我得到了这样的结果：如您所见，在GPU activities中有三个 kernel 。这是源代码：之后，我提取初始化数据、kernel 调用和释放数据以分离主机函数并再次调用 ...

“占用图表”中显示的SM是否对应于“ blockIdx.x”或注册“％smid”？ - Do the SM's shown in the “occupancy graph” correspond to `blockIdx.x` or register `%smid`?

“占用图”中显示的SM是否对应于blockIdx.x或寄存器%smid ？这是一个这样的图的例子这是我将blockIdx.x打印为“逻辑”块并将打印寄存器%smid （通过程序集访问）作为物理块时的一些示例输出。此外，我可以预测每个块将执行多长时间，并且〜30和〜 ...

已发布的加载/存储说明以进行重放 - Issued load/store instructions for replay

关于加载/存储指令，有两个nvprof度量标准，分别是ldst_executed和ldst_issued 。我们知道executed<=issued 。我希望已发布但未执行的那些加载/存储与分支谓词和其他错误的预测相关。然而，从这个（幻灯片9）文件，这个话题，正在发行但未执 ...

nvprof-不记录分析数据 - nvprof - profiling data are not recorded

我正在尝试使用nvprof工具分析我的CUDA程序。这是我的代码：我使用命令nvcc add.cu -o add_cuda对其进行了编译。然后，我使用nvprof ./add_cuda --unified-memory-profiling off或nvprof运行它（作 ...

如何使算法预取在CUDA中工作 - How to get algorithmic prefetching to work in CUDA

我正在尝试预取一些数据。通常，我依靠编译器来执行此操作，因为编译器有成千上万的人在进行处理，而我只是一个谦虚的人。话虽这么说，有时候如果我在算法级别上不做任何事情，编译器就没有机会了。在这种情况下，我需要GPU在实际需要该值之前开始从GPU主存储器中预取值一到两个循环执行。您 ...

如何使malloc出现在nvprof的统计分析器中？ - How to get malloc to show up in nvprof's statistical profiler?

有没有办法让CUDA的nvprof在其统计分析器中包含malloc类的函数调用？我一直在尝试提高应用程序的性能。自然，我一直在使用nvprof作为工具。最近，为了减少我的应用程序的GPU内存占用，我编写了使运行时间延长两倍的代码。但是，导致速度变慢的新代码仅少量出现在事件 ...