cost 268 ms
我可以直接跳到分析特定 kernel 的特定調用嗎?

[英]Can I skip ahead to profile a specific invocation of a specific kernel?

我正在使用 NSight Compute GUI (ncu-ui) 來分析某個應用程序中的內核。 我的應用調用 kernel my_kernel_1數千次,然后調用my_kernel_2數千次。 我不想分析所有內核的所有調用; 我只想分析my_kernel_2的一次調用(例如第十次或中間一次)。 ...

ncu-ui 無法運行:無法在“”中加載 Qt 平台插件“xcb”,即使已找到

[英]ncu-ui won't run: Could not load the Qt platform plugin "xcb" in "" even though it was found

我正在嘗試在 CentOS 7 Linux 系統(使用 ncu-ui 2022.1)上以 root 用戶和普通用戶身份運行ncu-ui探查器 GUI。 我收到錯誤: 我已經安裝了一堆 xcb 庫,問題並沒有消失 go 。 我應該怎么辦? ...

哪些 GPU 執行依賴項具有固定延遲(導致“等待”停頓)?

[英]Which GPU execution dependencies have fixed latency (causing 'Wait' stalls)?

借助最近的 NVIDIA 微架構,出現了一種新的 (?) 翹曲停止原因/翹曲調度程序狀態分類法。 其中之一是: 等待:Warp 因等待固定延遲執行依賴而停止。 正如@GregSmith解釋的那樣,固定延遲指令是:“數學,按位[和] 寄存器移動”。 但是什么是固定延遲的“執行依賴”? 這些只是“等待 ...

共享 memory 使用 Tensor Core 時未注冊的負載

[英]Shared memory loads not registered when using Tensor Cores

我正在嘗試在使用圖靈架構設計的 GPU 上使用 Tensor Core 乘以大小為 8x8 的塊。 為此,我使用了 WMMA API 和大小為 16x16 的片段。 我的假設是共享 memory 帶寬會被浪費,因為加載到片段中的大多數數據並不代表有用的信息。 在嘗試量化時,我遇到了以下問題:在 Ns ...

MIO 油門失速何時發生?

[英]When does MIO Throttle stall happen?

根據此鏈接https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html : Warp 在等待 MIO(內存輸入/輸出)指令隊列未滿時停止。 在極端使用 MIO 流水線(包括特殊數學指令、動態分支以及共享 memory 指令)的情 ...

什么是“長”和“短”記分牌 w.r.t。 MIO/L1TEX?

[英]What are the “long” and “short” scoreboard w.r.t. MIO/L1TEX?

借助最近的 NVIDIA 微架構,出現了一種新的 (?) 翹曲停止原因/翹曲調度程序狀態分類法。 此分類中的兩個項目是: Short scoreboard - 記分板依賴於 MIO 隊列操作。 長記分牌- 記分牌依賴於 L1TEX 操作。 其中,我認為“記分板”是指亂序執行數據依賴跟蹤的含義(參 ...

NSight Compute 顯示什么是不受“支持”的停頓原因?

[英]What does NSight Compute show for a stall reason that isn't “supported”?

CUDA 分析指南列出了采樣扭曲失速的各種原因,例如分配、障礙、LG 節流等。並且 - NSight 計算分析器將這些分布顯示為分析結果的一部分。 問題是,一些失速原因被列為僅從某些計算能力開始支持,例如“LG Throttle:7.0+” 我的問題:當停頓原因是這種“不受支持”的原因時,具有較 ...

端口轉發以避免需要證書

[英]Port forwarding to avoid the need for certificate

我需要在本地設置一個通過 SSH 連接到 EC2 實例的工具,以在遠程機器上執行分析。 問題如下:EC2 需要使用 PEM 證書進行連接,但該工具不支持證書。 有沒有辦法進行一些端口轉發,以便該工具可以在沒有密碼(或至少沒有證書)的情況下連接到類似 localhost:2222 的東西,然后流量被重 ...

NSIGHT 計算:SOL SM 與 Roofline

[英]NSIGHT compute: SOL SM versus Roofline

我在我的 cuda kernel 上運行了 cuda-11.2 nsight-compute 。 它報告說 SOL SM 為 79.44%,我認為這非常接近最大值。 SOL L1 為 48.38% 當我檢查屋頂曲線圖時,我發現我的測量結果與峰值性能相差甚遠。 達到: 4.7 GFlop/s 。 ...

如何將我的 NVRTC 程序源與文件相關聯?

[英]How can I associate my NVRTC program source with a file?

我正在使用 NVRTC 編譯 kernel。 相關的 API 調用是: 如您所見,源是原始字符串,與文件無關。 這意味着當您--generate-line-info時,您會得到行號,但沒有相關的文件名。 這意味着如果您隨后使用 NSight Compute - 您將無法看到您的 kernel 源代 ...

如何使用 NSight Compute 2019 CLI 獲取內核的執行時間?

[英]How can I get a kernel's execution time with NSight Compute 2019 CLI?

假設我有一個不需要命令行參數的可執行文件myapp ,並啟動一個 CUDA kernel mykernel 。 我可以調用: 得到 output 看起來像這樣: 到目前為止,一切都很好。 但是現在,我只想要 mykernel 的總持續時間mykernel - 而不是其他 output。看看nv-n ...

NSight Compute - 獲取樣本總數?

[英]NSight Compute - get total number of samples?

當您使用 NSight-Compute 的 Source、PTX 或 SASS 視圖時,您會看到在每條線上采集的樣本數。 但是,您沒有看到(或很難找到)您想要歸一化的總體樣本總數。 它是否被列出有點不顯眼還是只是丟失了? ...

Nsight Compute 中使用的術語

[英]Terminology used in Nsight Compute

兩個問題: 根據 Nsight Compute,我的 kernel 受計算約束。 相對於峰值性能的 SM 利用率為 74%,memory 利用率為 47%。 但是,當我查看每個管道利用率百分比時,LSU 利用率遠高於其他管道(75% 對 10-15%)。 這不是表明我的 kernel 是 memor ...

如何在具有計算能力 7.x 的 CUDA 應用程序中進行概要分析? 度量標准“dram_read_throughput”在 Nsight Compute 中有效嗎?

[英]How to profile in CUDA application with compute capability 7.x? Is metric "dram_read_throughput" valid in Nsight Compute?

我的設置環境:CUDA 10.2 設備:RTX 2080 操作系統:Ubuntu 16.04 當我嘗試使用 nvprof 時,我發現它不支持計算能力為 7.2 或更高的設備。 建議我改用 Nsight Compute 或 Nsight Systems。 但是由於缺少圖形界面,我無法啟動上述兩個軟件 ...

Nsight Compute 如何確定/顯示共享的 memory 指標?

[英]How does Nsight Compute determine/display shared memory metrics?

我正在了解 CUDA 中的__shared__ memory,我對 Nsight Compute 如何顯示共享 memory 統計數據感到困惑。 我正在閱讀這篇文章(代碼在 Nvidia 的github上可用,但復制如下以供參考)。#include <stdio.h> __globa ...

優化 CalculateConvolutionOutputTensor__im2col

[英]Optimizing CalculateConvolutionOutputTensor__im2col

要求我寫信請求有關優化我的解決方案/方法“CalculateConvolutionOutputTensor__im2col”的指導。 我希望幫助確定超越我幼稚方法的最佳策略; 提供有關任何相關 GPU 流程及其應用方式的直覺(例如,銀行沖突); 並根據我可以調整的內容幫助解釋上述配置文件。 使用 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM