簡體   English   中英

RTX 3080 LHR 缺少 gpu__dram_throughput CUDA 指標

[英]RTX 3080 LHR Missing gpu__dram_throughput CUDA metric

作為機器學習項目的一部分,我們正在優化一些自定義 CUDA 內核。

我們正在嘗試使用 Nsight Compute 對它們進行分析,但是在圍繞 CUDA Kernel 運行簡單包裝器時,在 LHR RTX 3080 上運行時遇到以下錯誤:

==ERROR== Failed to access the following 4 metrics: dram__cycles_active.avg.pct_of_peak_sustained_elapsed, dram__cycles_elapsed.avg.per_second, gpu__compute_memory_throughput.avg.pct_of_peak_sustained_elapsed, gpu__dram_throughput.avg.pct_of_peak_sustained_elapsed

==ERROR== Failed to profile kernel "kernel" in process 20204

通過nv-nsight-cu-cli --devices 0 --query-metrics對 RTX 3080 TI (non-LHR) 與 RTX-3080 (LHR) 上可用的指標進行比較,我們注意到缺少以下指標在 RTX 3080 LHR 版本中:

gpu__compute_memory_request_throughput
gpu__compute_memory_throughput
gpu__dram_throughput

所有這些都是使用 Nsight Compute 進行基本 memory 分析所必需的。 除這些之外,所有其他指標均正確顯示。 這是LHR卡的限制嗎? 他們為什么不在場?

細節:

  • 技嘉 RTX 3080 Turbo (LHR)
  • Cuda 版本:11.5
  • 驅動程序版本:497.29。
  • Windows 10

我在 nvidia 開發者論壇上看到了你的帖子,從它的樣子來看,nvidia 並不打算這樣做,所以我要么只是 go 與現在有效的(非 lhr),直到他們修復它。 Nsight Compute 支持 Quadro 和 tesla 卡,因此它們可能是一種保留解決方案。

所以回答主要問題:

購買非 LHR GPU 會解決這個問題嗎?

現在,是的,購買非 lhr 3080 應該可以解決這個問題。

根據 Nvidia 論壇,這是一個意外錯誤,已通過從 CUDA 11.5 升級到 CUDA 11.6 修復,在該錯誤下,所有分析都可以在所有可用指標下正常工作。

成功條件:

  • 技嘉 RTX 3080 Turbo (LHR)
  • Cuda 版本:11.6
  • 驅動程序版本:511.23。
  • Windows 10

我們不知道為什么這些指標不可用,但版本更新絕對是正確的修復。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM