標簽[gpu] - 堆棧內存溢出

[英]gpu partially detected, torch tensor is not uploaded to gpu

檢測到我的 gpu 但不在我使用的代碼是：結果是：我使用的是 NVIDIA GTX 1070 Ti，Nvidia 顯卡驅動 460.89、cuda 11.2、cudnn 8.1.1、torch 1.7.1+cu110、torchvision 0.8.2+cu110。雖然上面的結果，我的深度 ...

我如何獲得 cuML RandomForestClassifier 葉子？

[英]How can I get cuML RandomForestClassifier leafs?

我是cuML的新手，我有一個使用 scikit 學習的決策樹分類器。我想使用 GPU 執行一些超參數搜索，所以我開始尋找cuML 。 cuML 中沒有DecisionTreeClassifier ，但據我在其他 SO 帖子中所讀，它可以通過使用具有 1 棵樹且沒有引導程序的RandomFore ...

cuda 代碼可以在沒有 cudaStreamDestroy() 的情況下完成嗎？

[英]can a cuda code finish without cudaStreamDestroy()?

在我們的大型代碼庫中，我發現有多個cudaStreamCreate()函數。但是，我在任何地方都找不到cudaStreamDestroy() 。程序完成后銷毀流是否重要，或者不需要擔心這一點？在這方面什么是好的編程實踐？ ...

如何安裝舊版本的 OpenCL？

[英]How to install an older version of OpenCL?

在Windows 11上安裝NVIDIA GeForce RTX 3060 Ti顯卡驅動時，安裝了OpenCL 3.0版本。如何安裝 OpenCL 2.0 版？嘗試安裝舊版本的 NVIDIA 驅動程序，但它們沒有安裝在 Windows 11 上。 ...

如何將 GPU 與 Tensorflow 2.11 一起使用？

[英]How to use the GPU with Tensorflow 2.11?

根據此鏈接：//pypi.org/project/tensorflow-gpu/，不再支持“tensorflow-gpu”package，用戶應改為使用“tensorflow”package，它應該支持 GPU。然而，安裝 tensorflow 2.11 package 后，它甚至檢測不到我的 ...

CUDA_CACHE_DISABLE=1的作用是什么？請詳細說明

[英]What is the role of CUDA_CACHE_DISABLE=1? Please explain in detail

我在 run.sh 文件中看到一些使用 CUDA_CACHE_DISABLE=1 的代碼。但是網站上沒有詳盡的解釋。我從在線文檔中得到的是一些抽象的東西，如下所示：為即時編譯禁用緩存（設置為 1 時）或啟用緩存（設置為 0 時）。禁用時，不會將二進制代碼添加到緩存或從緩存中檢索。但什么是二 ...

LNK2005 與 __declspec(dllexport)

[英]LNK2005 with __declspec(dllexport)

我正在編寫一個簡單的 OpenGL 3D 應用程序。如果我在筆記本電腦上運行該應用程序，性能會很糟糕，因為始終選擇內部 Intel GPU 而不是功能更強大的專用 AMD GPU。我讀到我必須包括這一行以強制應用程序在專用的 GPU 上運行：但是，我收到一個 LNK2005 錯誤，指出Amd ...

Pytorch 與 Tensorflow CUDA 版本

[英]Pytorch vs. Tensorflow CUDA Versions

我目前有 Pytorch（版本 1.13.1+cu116）設置。它檢測到 GPU 並與 CUDA 版本 11.6 一起正常工作。下面是我運行nvidia-smi得到的 output：我現在正在嘗試使用 GPU 支持設置 tensorflow。但是，它不適用於 CUDA 版本 11.6（使用 ...

std::bad_alloc: out_of_memory: CUDA 導入數據/運行模型時出錯

[英]std::bad_alloc: out_of_memory: CUDA error when importing data/running models

我正在嘗試將數據集上傳到 NVIDA RAPIDS jupyter notebook，但在導入此數據集或在 dask dataframe 上使用 XGBoost 時，此錯誤不斷彈出。訓練數據集的大小為 3.7gb。我只有一個GPU。一些規格：中央處理器：i7 9700F @4.00GHz G ...

如何在RStudio中用GPU激活R的手電筒package

[英]How to activate R's torch package with GPU in RStudio

我想在這里運行教程。 https://blogs.rstudio.com/ai/posts/2020-09-29-introducing-torch-for-r/ 安裝后然后當我在我的 RStudio 中激活它時，出現以下錯誤我希望它返回：我知道我的機器中有幾個 CUDA 引擎：和或者 ...

在虛幻引擎中記錄和保存基本 GPU 統計數據的最簡單方法？

[英]easiest way to log and save basic GPU stats in Unreal Engine?

在虛幻引擎編輯器中測試時，我需要在文件中記錄基本的 GPU 統計數據（計算時間），以便之后分析它們。最簡單的方法是什么？我正在使用 UE 5.1 對藍圖沒有偏好，解決方案可以使用或不使用藍圖。我不需要記錄同步事件（如果它們也被添加也沒關系，我只是不需要它們）。隨着時間的推移，我只需要簡單的 ...

CPU 中的集成 GPU 是否有通過 PCIe 總線傳輸數據的開銷，就像在 CPU 和專用 GPU 之間傳輸數據一樣？

[英]Do integrated GPUs in CPUs have the overhead of transferring data over the PCIe bus just like transferring data between CPU and dedicated GPU?

CPU 中的集成 GPU 是否有通過 PCIe 總線傳輸數據的開銷，就像在 CPU 和專用 GPU 之間傳輸數據一樣？我問這個問題是因為我的 OpenCL GPU 加速計算在集成的 GPU Intel(R) Iris(R) Xe Graphics 上的性能優於專用的 NVIDIA T500 G ...

請使用 torch.load 和 map_location=torch.device('cpu') 到 map 你的存儲到 CPU

[英]please use torch.load with map_location=torch.device('cpu') to map your storages to the CPU

當我嘗試運行此代碼塊時，出現以下問題： RuntimeError：嘗試在 CUDA 設備上反序列化 object，但 torch.cuda.is_available() 為 False。如果你在一台只有 CPU 的機器上運行，請使用 torch.load 和 map_location=torc ...

CUDA里面有kernel隊列啟用GPU嗎？

[英]Is there a kernel queue inside CUDA enabled GPU?

當多個 PyTorch 進程在同一個 Nvidia GPU 上運行推理時。我想知道當來自不同上下文的兩個 kernel 請求（cuLaunchKernel）由 CUDA 處理時會發生什么？ CUDA GPU 可以為那些 kernel 請求創建 FIFO 隊列嗎？在運行我的 PyTorch 程序 ...

一個推力問題：如何使用自定義排列順序將 host_vector 復制到 device_vector？

[英]A thrust problem: How can I copy a host_vector to device_vector with a customized permutation order?

我在主機中有一個數組，我想以不同的順序將它傳輸到設備。我試過這個玩具代碼符合nvc++ test.cpp -stdpar 問題是thrust::copy不允許從主機復制到設備，我怎樣才能繞過這個限制？ ...

在NVIDIA gpu中，為什么運行時間隨着線程數增加到gpu核心的3倍？

[英]In NVIDIA gpu， Why is the elapse time the same as the number of thread increase to 3 times of gpu core？

這是我的cuda代碼：我編譯我的代碼，在2080Ti上運行，我發現線程消耗時間大約是214毫秒，但是線程數是gpu核心的3倍（在2080Ti上是4352）所以我的問題是為什么運行時間和線程數一樣增加到gpu核的3倍？意思是NVIDIA gpu的計算能力是gpu核心的3倍？ ...

實現混合功能對於固定功能混合來說過於復雜

[英]Implementing blending functions too complicated for fixed-function blending

我正在嘗試在 gpu 上實現高級混合。但是每當我嘗試搜索資源時，我都會被順序獨立渲染、片段着色器互鎖等術語弄得不知所措。而且我不知道哪些與我的問題相關。簡單地給出 3 個對象，（ b0 ， b1 ， b2 ），它們都位於同一個像素上並具有特定的 z 順序。（您可以假設對象已正確排序）。那么 ...

在NVIDIA gpu中，ld/st和算術指令（比如int32 fp32）可以在同一個sm中同時運行嗎？

[英]In NVIDIA gpu， Can ld/st and arithmetic instruction（such as int32 fp32 ）run simultaneously in same sm?

尤其是圖靈和安培架構，在同一個sm和同一個warp調度器中，warp是否可以同時運行ld/st等算術指令？我想知道 warp scheduler 是如何工作的 ...

NVIDIA GPU 如何獲取指令成本？

[英]How to get instruction cost in NVIDIA GPU？

我想知道nvidia gpu有多少時鍾指令開銷，比如add, mul，ld/st等等，我該怎么做？我寫了一些代碼在 2080Ti 上測試和運行但是結果讓我有點疑惑，結果output是：在 gpu 階段 1:6 0 為什么執行了這么多次 mul 指令，時鍾成本只有 6 ？ nvcc 編譯器是否 ...

如何在加載另一個數據集時清理 GPU memory

[英]How to clean GPU memory when loading another dataset

我在比較兩種類型的輸入數據（3 秒和 30 秒）的音頻頻譜圖上訓練 CNN.network。這導致實驗中不同的頻譜圖大小。我正在使用它來獲取數據：def get_data(data_type, batch_size): assert data_type in ['3s', '30s'] ...