![](/img/trans.png)
[英]Profilers (nvvp and nvprof) not showing "Page Fault" information
我正在分析 NVIDIA 開發人員論壇上針對 CUDA 初學者的統一 Memory 中提供的測試代碼。 代碼: 問題:作者提供的分析結果顯示了有關“頁面錯誤”的信息,但是當我運行nvprof和nvvp分析器時,我沒有得到任何有關頁面錯誤的信息。 是否有任何標志或需要明確設置的東西才能獲取該信息? 我 ...
[英]Profilers (nvvp and nvprof) not showing "Page Fault" information
我正在分析 NVIDIA 開發人員論壇上針對 CUDA 初學者的統一 Memory 中提供的測試代碼。 代碼: 問題:作者提供的分析結果顯示了有關“頁面錯誤”的信息,但是當我運行nvprof和nvvp分析器時,我沒有得到任何有關頁面錯誤的信息。 是否有任何標志或需要明確設置的東西才能獲取該信息? 我 ...
[英]NVIDIA Visual Profiler crashes on startup
我正在使用 NVIDIA 的 Visual Profiler (nvvp) 在 Pascal GPU 上分析內核(因為Nsight Compute 不支持這些內核)-在 Devuan GNU/Linux 4 系統上使用 CUDA 11.4。 當我運行nvvp ,它立即崩潰,說: 為什么會發生這 ...
[英]Meaning of the “flop_count_sp” and “inst_fp_32” metric in CUDA Profiler
根據分析器用戶指南: flop_count_sp:由非謂詞線程(加法、乘法和乘法累加)執行的單精度浮點運算數。 每個乘加運算對計數貢獻 2。 計數不包括特殊操作。 inst_fp_32:非謂詞線程(算術、比較等)執行的單精度浮點指令數 我有一個帶有分析器輸出的內核,可以添加到以下 ...
[英]NVIDIA Visual Profiler: Insufficient kernel bounds data
我試圖了解為什么我的 CUDA kernel 的性能相對較低,我希望通過 NVIDIA 分析器得到一些答案。 我的 CUDA 程序是一個大型應用程序的“簡化”版本,用於隔離和運行有問題的 kernel。 該程序多次啟動 kernel 以測量其執行時間作為多次啟動的平均值。 在計時循環之后,發出從設備 ...
[英]How to stop running TensorRT server without using ctrl-c (for profiling with nvprof)
我正在運行 nvprof 來分析 TensorRT 服務器-客戶端模型的 GPU 使用情況。 這是我在做什么: 在啟用nvprof --profile-all-processes -o results%p.nvvp容器中的終端 1 上運行 nvprof, nvprof --profile-al ...
[英]Where is the boundary of start and end of CPU launch and GPU launch of Nvidia Profiling NVPROF?
在CPU和GPU(黃色塊)中內核啟動的開始和結束的定義是什么? 它們之間的界限在哪里? 請注意,CPU和GPU中這些黃色塊的開始,結束和持續時間是不同的。 vecAdd<<<gridSize, blockSize>>>(d_a, d_b, d_c, n ...
[英]Why operations in two CUDA Streams are not overlapping?
我的程序是一個管道,其中包含多個內核和 memcpy。 每個任務將通過具有不同輸入數據的相同管道。 主機代碼在處理任務時將首先選擇一個通道,它是暫存器內存和 CUDA 對象的封裝。 在最后一個階段之后,我會記錄一個事件然后去處理下一個任務。 主要的流水線邏輯如下。 問題在於不同流中的操作不會重疊。 ...
[英]CUDA's nvvp reports non-ideal memory access pattern, but bandwidth is almost peaking
編輯:一個新的最小工作示例,以說明問題並更好地解釋nvvp的結果(遵循評論中給出的建議)。 因此,我制作了一個“最小”的工作示例,如下所示: 當我編譯並運行上述代碼時,內核duplicate_whole和duplicate_half大約需要相同的時間才能運行。 但是,當我使用 ...
[英]How to print api calls per thread with nvprof
我正在分析CUDA應用程序,並將日志轉儲到文件target.prof中 我的應用程序使用多個線程來調度內核,我只想觀察其中一個線程的api調用。 我嘗試使用nvprof -i target.prof --print-api-trace但這不打印thread_id。 當使用可視分析器 ...
[英]Profiling arbitrary CUDA applications
我當然知道nvvp和nvprof的存在,但由於各種原因nvprof不想使用我的應用程序,其中涉及大量共享庫。 nvidia-smi可以連接到驅動程序以找出正在運行的內容,但是我找不到讓nvprof附加到正在運行的進程的好方法。 有一個標志--profile-all-processes它實際上給了 ...
[英]What does “Instruction Issued” mean in the report provided by CUDA nvvp?
我使用Nvidia Visual Profiler(nvvp)在cublas內核上執行內核配置文件。 此鏈接等待時間分布是等待時間分布結果。 該文檔以這種方式解釋了“發出的指令”一詞-“發出的指令-已發出翹曲”,這使我感到困惑。 這到底是什么意思? ...
[英]How to specify nvprof “devices” option for Nvidia Visual Profiler?
CUDA Toolkit 9.0,Windows 10,GTX 1060和NVS 315、385.54驅動程序版本。 Nvidia Visual Profiler始終無法進行概要分析,返回以下兩條警告消息: “警告:此版本的nvprof不支持基礎設備,GPU配置文件已跳過” “ ...
[英]How to profile CUDA code on a headless node?
我正在研究要分析的CUDA應用程序。 到目前為止,我只使用了命令行探查器nvprof ,它僅顯示摘要統計信息。 我考慮過使用GUI分析器NVVP。 問題是我在其上運行應用程序的遠程Linux節點沒有任何GUI(甚至X.org)。 而且,即使我設法在遠程節點上獲得一些X11堆棧,在分析 ...
[英]Excessive profiler overhead with NVidia Visual Profiler
當嘗試使用nvvp (或使用nvprof )分析代碼時,我得到了大量的分析開銷: 總時間為98毫秒,並且在第一次內核啟動時得到了85毫秒的“儀器”。 如何減少此配置文件的開銷或以其他方式僅放大我感興趣的部分? 背景 我在未選中“開始執行並啟用性能分析”的情況下運行此程序 ...
[英]What's the difference between DtoD and PtoP memory copies?
使用nvprof對應用程序進行性能分析時,我同時發現了PtoP和DtoD memcpy。 我不確定這兩者之間的區別。 ...
[英]CUDA pointer arithmetic causes uncoalesced memory access?
我正在使用必須在指針到指針上運行的CUDA內核。 內核基本上執行大量非常小的縮減,最好以串行方式完成,因為縮減的大小為Nptrs = 3-4。 這是內核的兩種實現: 如名稱所示,內核“ sepderef”的性能比同類產品快約40%,一旦計算出啟動開銷,則在Nptrs = 3的情況下, ...
[英]nsight EE and nvvp both crash during startup on Ubuntu 16.10
當我啟動兩個應用程序時,它們都在啟動屏幕出現后崩潰。 出現一個小對話框,並顯示an error has occurred. see the log file null消息an error has occurred. see the log file null an error has occ ...
[英]How to interpret NVIDIA Visual Profiler analysis/recommendations?
我是CUDA的新手,目前正在研究一個項目,該項目旨在加速具有gpu附件(NVIDIA TX1)的嵌入式系統中的計算機視覺應用程序。 我想做的是在兩個庫之間進行選擇:OpenCV和VisionWorks(包括OpenVX)。 目前,我已經編寫了運行Canny Edge Detection算 ...
[英]Why is there no activity on GPU between successive thrust sort and reduce commands?
請參考下面的兩個快照,顯示我的CUDA代碼的Nvidia Visual Profiler會話: nvprof會話的快照,顯示了推力::排序和推力::減少調用執行時間線 突出顯示排序和減少調用以顯示花費的時間以及執行之間的間隔 您可以看到兩個thrust::sort()調用之間有 ...
[英]Profiling OpenCL application on Windows with NVIDIA GPU
你能幫助我嗎? 我正在Windows 7 x64上開發OpenCL應用程序。 硬件是Intel Core i5,NVIDIA GTX770。OpenCL使用NVIDIA進行加速。 如果我嘗試使用Intel VTune Amplifier XE 2015,我的應用程序將在分析結束時掛起, ...