标签[nvvp] - 堆栈内存溢出

探查器（nvvp 和 nvprof）不显示“页面错误”信息 - Profilers (nvvp and nvprof) not showing "Page Fault" information

我正在分析 NVIDIA 开发人员论坛上针对 CUDA 初学者的统一 Memory 中提供的测试代码。代码：问题：作者提供的分析结果显示了有关“页面错误”的信息，但是当我运行nvprof和nvvp分析器时，我没有得到任何有关页面错误的信息。是否有任何标志或需要明确设置的东西才能获取该信息？我 ...

NVIDIA Visual Profiler 在启动时崩溃 - NVIDIA Visual Profiler crashes on startup

我正在使用 NVIDIA 的 Visual Profiler (nvvp) 在 Pascal GPU 上分析内核（因为Nsight Compute 不支持这些内核）-在 Devuan GNU/Linux 4 系统上使用 CUDA 11.4。当我运行nvvp ，它立即崩溃，说：为什么会发生这 ...

CUDA Profiler 中“flop_count_sp”和“inst_fp_32”指标的含义 - Meaning of the “flop_count_sp” and “inst_fp_32” metric in CUDA Profiler

根据分析器用户指南： flop_count_sp：由非谓词线程（加法、乘法和乘法累加）执行的单精度浮点运算数。每个乘加运算对计数贡献 2。计数不包括特殊操作。 inst_fp_32：非谓词线程（算术、比较等）执行的单精度浮点指令数我有一个带有分析器输出的内核，可以添加到以下 ...

NVIDIA Visual Profiler：kernel 边界数据不足 - NVIDIA Visual Profiler: Insufficient kernel bounds data

我试图了解为什么我的 CUDA kernel 的性能相对较低，我希望通过 NVIDIA 分析器得到一些答案。我的 CUDA 程序是一个大型应用程序的“简化”版本，用于隔离和运行有问题的 kernel。该程序多次启动 kernel 以测量其执行时间作为多次启动的平均值。在计时循环之后，发出从设备 ...

如何在不使用 ctrl-c 的情况下停止运行 TensorRT 服务器（用于使用 nvprof 进行分析） - How to stop running TensorRT server without using ctrl-c (for profiling with nvprof)

我正在运行 nvprof 来分析 TensorRT 服务器-客户端模型的 GPU 使用情况。这是我在做什么：在启用nvprof --profile-all-processes -o results%p.nvvp容器中的终端 1 上运行 nvprof， nvprof --profile-al ...

Nvidia Profiling NVPROF的CPU启动和GPU启动的开始和结束的边界在哪里？ - Where is the boundary of start and end of CPU launch and GPU launch of Nvidia Profiling NVPROF?

在CPU和GPU（黄色块）中内核启动的开始和结束的定义是什么？它们之间的界限在哪里？请注意，CPU和GPU中这些黄色块的开始，结束和持续时间是不同的。 vecAdd<<<gridSize, blockSize>>>(d_a, d_b, d_c, n ...

为什么两个 CUDA Streams 中的操作不重叠？ - Why operations in two CUDA Streams are not overlapping?

我的程序是一个管道，其中包含多个内核和 memcpy。每个任务将通过具有不同输入数据的相同管道。主机代码在处理任务时将首先选择一个通道，它是暂存器内存和 CUDA 对象的封装。在最后一个阶段之后，我会记录一个事件然后去处理下一个任务。主要的流水线逻辑如下。问题在于不同流中的操作不会重叠。 ...

CUDA的nvvp报告非理想的内存访问模式，但带宽几乎达到峰值 - CUDA's nvvp reports non-ideal memory access pattern, but bandwidth is almost peaking

编辑：一个新的最小工作示例，以说明问题并更好地解释nvvp的结果（遵循评论中给出的建议）。因此，我制作了一个“最小”的工作示例，如下所示：当我编译并运行上述代码时，内核duplicate_whole和duplicate_half大约需要相同的时间才能运行。但是，当我使用 ...

如何使用nvprof打印每个线程的api调用 - How to print api calls per thread with nvprof

我正在分析CUDA应用程序，并将日志转储到文件target.prof中我的应用程序使用多个线程来调度内核，我只想观察其中一个线程的api调用。我尝试使用nvprof -i target.prof --print-api-trace但这不打印thread_id。当使用可视分析器 ...

分析任意 CUDA 应用程序 - Profiling arbitrary CUDA applications

我当然知道nvvp和nvprof的存在，但由于各种原因nvprof不想使用我的应用程序，其中涉及大量共享库。 nvidia-smi可以连接到驱动程序以找出正在运行的内容，但是我找不到让nvprof附加到正在运行的进程的好方法。有一个标志--profile-all-processes它实际上给了 ...

CUDA nvvp提供的报告中的“已发出指令”是什么意思？ - What does “Instruction Issued” mean in the report provided by CUDA nvvp?

我使用Nvidia Visual Profiler（nvvp）在cublas内核上执行内核配置文件。此链接等待时间分布是等待时间分布结果。该文档以这种方式解释了“发出的指令”一词-“发出的指令-已发出翘曲”，这使我感到困惑。这到底是什么意思？ ...

如何为Nvidia Visual Profiler指定nvprof“设备”选项？ - How to specify nvprof “devices” option for Nvidia Visual Profiler?

CUDA Toolkit 9.0，Windows 10，GTX 1060和NVS 315、385.54驱动程序版本。 Nvidia Visual Profiler始终无法进行概要分析，返回以下两条警告消息： “警告：此版本的nvprof不支持基础设备，GPU配置文件已跳过” “ ...

如何在无头节点上分析CUDA代码？ - How to profile CUDA code on a headless node?

我正在研究要分析的CUDA应用程序。到目前为止，我只使用了命令行探查器nvprof ，它仅显示摘要统计信息。我考虑过使用GUI分析器NVVP。问题是我在其上运行应用程序的远程Linux节点没有任何GUI（甚至X.org）。而且，即使我设法在远程节点上获得一些X11堆栈，在分析 ...

NVidia Visual Profiler过多的分析器开销 - Excessive profiler overhead with NVidia Visual Profiler

当尝试使用nvvp （或使用nvprof ）分析代码时，我得到了大量的分析开销：总时间为98毫秒，并且在第一次内核启动时得到了85毫秒的“仪器”。如何减少此配置文件的开销或以其他方式仅放大我感兴趣的部分？背景我在未选中“开始执行并启用性能分析”的情况下运行此程序 ...

DtoD和PtoP内存副本有什么区别？ - What's the difference between DtoD and PtoP memory copies?

使用nvprof对应用程序进行性能分析时，我同时发现了PtoP和DtoD memcpy。我不确定这两者之间的区别。 ...

CUDA指针算术是否导致未分批的内存访问？ - CUDA pointer arithmetic causes uncoalesced memory access?

我正在使用必须在指针到指针上运行的CUDA内核。内核基本上执行大量非常小的缩减，最好以串行方式完成，因为缩减的大小为Nptrs = 3-4。这是内核的两种实现：如名称所示，内核“ sepderef”的性能比同类产品快约40％，一旦计算出启动开销，则在Nptrs = 3的情况下， ...

在Ubuntu 16.10上启动时，nsight EE和nvvp都崩溃 - nsight EE and nvvp both crash during startup on Ubuntu 16.10

当我启动两个应用程序时，它们都在启动屏幕出现后崩溃。出现一个小对话框，并显示an error has occurred. see the log file null消息an error has occurred. see the log file null an error has occ ...

如何解释NVIDIA Visual Profiler分析/建议？ - How to interpret NVIDIA Visual Profiler analysis/recommendations?

我是CUDA的新手，目前正在研究一个项目，该项目旨在加速具有gpu附件（NVIDIA TX1）的嵌入式系统中的计算机视觉应用程序。我想做的是在两个库之间进行选择：OpenCV和VisionWorks（包括OpenVX）。目前，我已经编写了运行Canny Edge Detection算 ...

为什么连续推力排序和归约命令之间在GPU上没有活动？ - Why is there no activity on GPU between successive thrust sort and reduce commands?

请参考下面的两个快照，显示我的CUDA代码的Nvidia Visual Profiler会话： nvprof会话的快照，显示了推力::排序和推力::减少调用执行时间线突出显示排序和减少调用以显示花费的时间以及执行之间的间隔您可以看到两个thrust::sort()调用之间有 ...

使用NVIDIA GPU在Windows上对OpenCL应用程序进行性能分析 - Profiling OpenCL application on Windows with NVIDIA GPU

你能帮助我吗？我正在Windows 7 x64上开发OpenCL应用程序。硬件是Intel Core i5，NVIDIA GTX770。OpenCL使用NVIDIA进行加速。如果我尝试使用Intel VTune Amplifier XE 2015，我的应用程序将在分析结束时挂起， ...