cost 370 ms
探查器(nvvp 和 nvprof)不显示“页面错误”信息 - Profilers (nvvp and nvprof) not showing "Page Fault" information

我正在分析 NVIDIA 开发人员论坛上针对 CUDA 初学者的统一 Memory 中提供的测试代码。 代码: 问题:作者提供的分析结果显示了有关“页面错误”的信息,但是当我运行nvprof和nvvp分析器时,我没有得到任何有关页面错误的信息。 是否有任何标志或需要明确设置的东西才能获取该信息? 我 ...

CUDA Profiler 中“flop_count_sp”和“inst_fp_32”指标的含义 - Meaning of the “flop_count_sp” and “inst_fp_32” metric in CUDA Profiler

根据分析器用户指南: flop_count_sp:由非谓词线程(加法、乘法和乘法累加)执行的单精度浮点运算数。 每个乘加运算对计数贡献 2。 计数不包括特殊操作。 inst_fp_32:非谓词线程(算术、比较等)执行的单精度浮点指令数 我有一个带有分析器输出的内核,可以添加到以下 ...

NVIDIA Visual Profiler:kernel 边界数据不足 - NVIDIA Visual Profiler: Insufficient kernel bounds data

我试图了解为什么我的 CUDA kernel 的性能相对较低,我希望通过 NVIDIA 分析器得到一些答案。 我的 CUDA 程序是一个大型应用程序的“简化”版本,用于隔离和运行有问题的 kernel。 该程序多次启动 kernel 以测量其执行时间作为多次启动的平均值。 在计时循环之后,发出从设备 ...

如何在不使用 ctrl-c 的情况下停止运行 TensorRT 服务器(用于使用 nvprof 进行分析) - How to stop running TensorRT server without using ctrl-c (for profiling with nvprof)

我正在运行 nvprof 来分析 TensorRT 服务器-客户端模型的 GPU 使用情况。 这是我在做什么: 在启用nvprof --profile-all-processes -o results%p.nvvp容器中的终端 1 上运行 nvprof, nvprof --profile-al ...

Nvidia Profiling NVPROF的CPU启动和GPU启动的开始和结束的边界在哪里? - Where is the boundary of start and end of CPU launch and GPU launch of Nvidia Profiling NVPROF?

在CPU和GPU(黄色块)中内核启动的开始和结束的定义是什么? 它们之间的界限在哪里? 请注意,CPU和GPU中这些黄色块的开始,结束和持续时间是不同的。 vecAdd<<<gridSize, blockSize>>>(d_a, d_b, d_c, n ...

为什么两个 CUDA Streams 中的操作不重叠? - Why operations in two CUDA Streams are not overlapping?

我的程序是一个管道,其中包含多个内核和 memcpy。 每个任务将通过具有不同输入数据的相同管道。 主机代码在处理任务时将首先选择一个通道,它是暂存器内存和 CUDA 对象的封装。 在最后一个阶段之后,我会记录一个事件然后去处理下一个任务。 主要的流水线逻辑如下。 问题在于不同流中的操作不会重叠。 ...

CUDA的nvvp报告非理想的内存访问模式,但带宽几乎达到峰值 - CUDA's nvvp reports non-ideal memory access pattern, but bandwidth is almost peaking

编辑:一个新的最小工作示例,以说明问题并更好地解释nvvp的结果(遵循评论中给出的建议)。 因此,我制作了一个“最小”的工作示例,如下所示: 当我编译并运行上述代码时,内核duplicate_whole和duplicate_half大约需要相同的时间才能运行。 但是,当我使用 ...

2018-11-08 18:32:50   1   83    cuda / nvvp  
分析任意 CUDA 应用程序 - Profiling arbitrary CUDA applications

我当然知道nvvp和nvprof的存在,但由于各种原因nvprof不想使用我的应用程序,其中涉及大量共享库。 nvidia-smi可以连接到驱动程序以找出正在运行的内容,但是我找不到让nvprof附加到正在运行的进程的好方法。 有一个标志--profile-all-processes它实际上给了 ...

CUDA nvvp提供的报告中的“已发出指令”是什么意思? - What does “Instruction Issued” mean in the report provided by CUDA nvvp?

我使用Nvidia Visual Profiler(nvvp)在cublas内核上执行内核配置文件。 此链接等待时间分布是等待时间分布结果。 该文档以这种方式解释了“发出的指令”一词-“发出的指令-已发出翘曲”,这使我感到困惑。 这到底是什么意思? ...

如何在无头节点上分析CUDA代码? - How to profile CUDA code on a headless node?

我正在研究要分析的CUDA应用程序。 到目前为止,我只使用了命令行探查器nvprof ,它仅显示摘要统计信息。 我考虑过使用GUI分析器NVVP。 问题是我在其上运行应用程序的远程Linux节点没有任何GUI(甚至X.org)。 而且,即使我设法在远程节点上获得一些X11堆栈,在分析 ...

NVidia Visual Profiler过多的分析器开销 - Excessive profiler overhead with NVidia Visual Profiler

当尝试使用nvvp (或使用nvprof )分析代码时,我得到了大量的分析开销: 总时间为98毫秒,并且在第一次内核启动时得到了85毫秒的“仪器”。 如何减少此配置文件的开销或以其他方式仅放大我感兴趣的部分? 背景 我在未选中“开始执行并启用性能分析”的情况下运行此程序 ...

2017-10-23 23:53:20   2   388    nvvp  
CUDA指针算术是否导致未分批的内存访问? - CUDA pointer arithmetic causes uncoalesced memory access?

我正在使用必须在指针到指针上运行的CUDA内核。 内核基本上执行大量非常小的缩减,最好以串行方式完成,因为缩减的大小为Nptrs = 3-4。 这是内核的两种实现: 如名称所示,内核“ sepderef”的性能比同类产品快约40%,一旦计算出启动开销,则在Nptrs = 3的情况下, ...

2017-06-11 01:23:02   1   117    cuda / nvvp  
如何解释NVIDIA Visual Profiler分析/建议? - How to interpret NVIDIA Visual Profiler analysis/recommendations?

我是CUDA的新手,目前正在研究一个项目,该项目旨在加速具有gpu附件(NVIDIA TX1)的嵌入式系统中的计算机视觉应用程序。 我想做的是在两个库之间进行选择:OpenCV和VisionWorks(包括OpenVX)。 目前,我已经编写了运行Canny Edge Detection算 ...

为什么连续推力排序和归约命令之间在GPU上没有活动? - Why is there no activity on GPU between successive thrust sort and reduce commands?

请参考下面的两个快照,显示我的CUDA代码的Nvidia Visual Profiler会话: nvprof会话的快照,显示了推力::排序和推力::减少调用执行时间线 突出显示排序和减少调用以显示花费的时间以及执行之间的间隔 您可以看到两个thrust::sort()调用之间有 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM