標簽[nsight-compute] - 堆棧內存溢出

[英]Why is the Compute Throughput’s value different from the actual Performance / Peak Performance?

我想為我的內核構建一個屋頂線 model。所以我用命令啟動 ncu ncu --csv --target-processes all --set roofline mpirun -n 1./run_pselinv_linux_release_v2.0 -H H3600.csc -file./t ...

我可以直接跳到分析特定 kernel 的特定調用嗎？

[英]Can I skip ahead to profile a specific invocation of a specific kernel?

我正在使用 NSight Compute GUI (ncu-ui) 來分析某個應用程序中的內核。我的應用調用 kernel my_kernel_1數千次，然后調用my_kernel_2數千次。我不想分析所有內核的所有調用；我只想分析my_kernel_2的一次調用（例如第十次或中間一次）。 ...

ncu-ui 無法運行：無法在“”中加載 Qt 平台插件“xcb”，即使已找到

[英]ncu-ui won't run: Could not load the Qt platform plugin "xcb" in "" even though it was found

我正在嘗試在 CentOS 7 Linux 系統（使用 ncu-ui 2022.1）上以 root 用戶和普通用戶身份運行ncu-ui探查器 GUI。我收到錯誤：我已經安裝了一堆 xcb 庫，問題並沒有消失 go 。我應該怎么辦？ ...

Nsight Compute 說：“此設備不支持分析” - 為什么？

[英]Nsight Compute says: "Profiling is not supported on this device" - why?

我有一台帶有 NVIDA GTX 1050 Ti GPU（計算能力 6.1）的機器，我正在嘗試在我用 CUDA 11.4 構建的程序中分析內核。我的操作系統發行版是 Devuan GNU/Linux 4 Chimaera（~= Debian 11 Bullseye）。 NSight Compu ...

哪些 GPU 執行依賴項具有固定延遲（導致“等待”停頓）？

[英]Which GPU execution dependencies have fixed latency (causing 'Wait' stalls)?

借助最近的 NVIDIA 微架構，出現了一種新的 (?) 翹曲停止原因/翹曲調度程序狀態分類法。其中之一是：等待：Warp 因等待固定延遲執行依賴而停止。正如@GregSmith解釋的那樣，固定延遲指令是：“數學，按位[和] 寄存器移動”。但是什么是固定延遲的“執行依賴”？這些只是“等待 ...

共享 memory 使用 Tensor Core 時未注冊的負載

[英]Shared memory loads not registered when using Tensor Cores

我正在嘗試在使用圖靈架構設計的 GPU 上使用 Tensor Core 乘以大小為 8x8 的塊。為此，我使用了 WMMA API 和大小為 16x16 的片段。我的假設是共享 memory 帶寬會被浪費，因為加載到片段中的大多數數據並不代表有用的信息。在嘗試量化時，我遇到了以下問題：在 Ns ...

MIO 油門失速何時發生？

[英]When does MIO Throttle stall happen?

根據此鏈接https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html ： Warp 在等待 MIO（內存輸入/輸出）指令隊列未滿時停止。在極端使用 MIO 流水線（包括特殊數學指令、動態分支以及共享 memory 指令）的情 ...

什么是“長”和“短”記分牌 w.r.t。 MIO/L1TEX？

[英]What are the “long” and “short” scoreboard w.r.t. MIO/L1TEX?

借助最近的 NVIDIA 微架構，出現了一種新的 (?) 翹曲停止原因/翹曲調度程序狀態分類法。此分類中的兩個項目是： Short scoreboard - 記分板依賴於 MIO 隊列操作。長記分牌- 記分牌依賴於 L1TEX 操作。其中，我認為“記分板”是指亂序執行數據依賴跟蹤的含義（參 ...

NSight Compute 顯示什么是不受“支持”的停頓原因？

[英]What does NSight Compute show for a stall reason that isn't “supported”?

CUDA 分析指南列出了采樣扭曲失速的各種原因，例如分配、障礙、LG 節流等。並且 - NSight 計算分析器將這些分布顯示為分析結果的一部分。問題是，一些失速原因被列為僅從某些計算能力開始支持，例如“LG Throttle：7.0+” 我的問題：當停頓原因是這種“不受支持”的原因時，具有較 ...

端口轉發以避免需要證書

[英]Port forwarding to avoid the need for certificate

我需要在本地設置一個通過 SSH 連接到 EC2 實例的工具，以在遠程機器上執行分析。問題如下：EC2 需要使用 PEM 證書進行連接，但該工具不支持證書。有沒有辦法進行一些端口轉發，以便該工具可以在沒有密碼（或至少沒有證書）的情況下連接到類似 localhost:2222 的東西，然后流量被重 ...

NSIGHT 計算：SOL SM 與 Roofline

[英]NSIGHT compute: SOL SM versus Roofline

我在我的 cuda kernel 上運行了 cuda-11.2 nsight-compute 。它報告說 SOL SM 為 79.44%，我認為這非常接近最大值。 SOL L1 為 48.38% 當我檢查屋頂曲線圖時，我發現我的測量結果與峰值性能相差甚遠。達到： 4.7 GFlop/s 。 ...

如何將我的 NVRTC 程序源與文件相關聯？

[英]How can I associate my NVRTC program source with a file?

我正在使用 NVRTC 編譯 kernel。相關的 API 調用是：如您所見，源是原始字符串，與文件無關。這意味着當您--generate-line-info時，您會得到行號，但沒有相關的文件名。這意味着如果您隨后使用 NSight Compute - 您將無法看到您的 kernel 源代 ...

如何使用 NSight Compute 2019 CLI 獲取內核的執行時間？

[英]How can I get a kernel's execution time with NSight Compute 2019 CLI?

假設我有一個不需要命令行參數的可執行文件myapp ，並啟動一個 CUDA kernel mykernel 。我可以調用：得到 output 看起來像這樣：到目前為止，一切都很好。但是現在，我只想要 mykernel 的總持續時間mykernel - 而不是其他 output。看看nv-n ...

NSight Compute - 獲取樣本總數？

[英]NSight Compute - get total number of samples?

當您使用 NSight-Compute 的 Source、PTX 或 SASS 視圖時，您會看到在每條線上采集的樣本數。但是，您沒有看到（或很難找到）您想要歸一化的總體樣本總數。它是否被列出有點不顯眼還是只是丟失了？ ...

nsight-compute 在調用時什么都不做

[英]nsight-compute does nothing upon invocation

我跑： ......什么也沒有出現。為什么？（ su是由於權限問題，這不是這個錯誤的原因。） ...

Nsight Compute 中使用的術語

[英]Terminology used in Nsight Compute

兩個問題：根據 Nsight Compute，我的 kernel 受計算約束。相對於峰值性能的 SM 利用率為 74%，memory 利用率為 47%。但是，當我查看每個管道利用率百分比時，LSU 利用率遠高於其他管道（75% 對 10-15%）。這不是表明我的 kernel 是 memor ...

如何在具有計算能力 7.x 的 CUDA 應用程序中進行概要分析？度量標准“dram_read_throughput”在 Nsight Compute 中有效嗎？

[英]How to profile in CUDA application with compute capability 7.x? Is metric "dram_read_throughput" valid in Nsight Compute?

我的設置環境：CUDA 10.2 設備：RTX 2080 操作系統：Ubuntu 16.04 當我嘗試使用 nvprof 時，我發現它不支持計算能力為 7.2 或更高的設備。建議我改用 Nsight Compute 或 Nsight Systems。但是由於缺少圖形界面，我無法啟動上述兩個軟件 ...

Nsight Compute 如何確定/顯示共享的 memory 指標？

[英]How does Nsight Compute determine/display shared memory metrics?

我正在了解 CUDA 中的__shared__ memory，我對 Nsight Compute 如何顯示共享 memory 統計數據感到困惑。我正在閱讀這篇文章（代碼在 Nvidia 的github上可用，但復制如下以供參考）。#include <stdio.h> __globa ...

Python & Tensorflow & CUDA 環境設置問題

[英]Python & Tensorflow & CUDA Environment Setup Problems

I had tensorflow 2.2 working with Python 3.7.4 on Windows 10 Enterprise 64-bit yesterday, including using the GPU. 今天早上，同一系統不再看到 GPU。我已經卸載/重新安裝了 CUD ...

優化 CalculateConvolutionOutputTensor__im2col

[英]Optimizing CalculateConvolutionOutputTensor__im2col

要求我寫信請求有關優化我的解決方案/方法“CalculateConvolutionOutputTensor__im2col”的指導。我希望幫助確定超越我幼稚方法的最佳策略；提供有關任何相關 GPU 流程及其應用方式的直覺（例如，銀行沖突）；並根據我可以調整的內容幫助解釋上述配置文件。使用 ...