cost 321 ms
为什么在编译 CUDA C++ 项目时 nvcc 不起作用而 cmake 起作用? - why nvcc doesn't work while cmake works when compiling a CUDA C++ project?

我有一个写在 CUDA C++ 中的代码,我可以使用 CMake 构建这个项目,像往常一样制作和运行它。 但是当我尝试使用 nvcc 对其进行调试时,它会抛出类似的错误 我的 CUDA 版本是: 我有一台带 4 个 GPU 的服务器。 有什么想法可能是什么问题吗? 我尝试了以下代码: 所有源文件和 ...

CUDA kernel 用于确定比 OpenMP 代码慢的素数 - 我该如何优化它? - CUDA kernel for determining primes slower than OpenMP code - how can I optimize it?

为了在 C++ 中使用 CUDA 练习编程。我做了一个练习,其中包括显示小于 N 的素数。对于每个代码,我注释掉了最后一个显示循环以仅比较计算时间。 Makefile: 这是我与 openMP 并行化的代码,运行时间为 1,306 秒: 这是在 1,613 秒内运行的相应 cuda 代码: 直觉 ...

CUDA_CACHE_DISABLE=1的作用是什么? 请详细说明 - What is the role of CUDA_CACHE_DISABLE=1? Please explain in detail

我在 run.sh 文件中看到一些使用 CUDA_CACHE_DISABLE=1 的代码。 但是网站上没有详尽的解释。 我从在线文档中得到的是一些抽象的东西,如下所示: 为即时编译禁用缓存(设置为 1 时)或启用缓存(设置为 0 时)。 禁用时,不会将二进制代码添加到缓存或从缓存中检索。 但什么是二 ...

我需要一个 CMakeLists.txt 等效于定义环境变量的此 Makefile 行 - I need a CMakeLists.txt equivalent to this Makefile line that defines an environment variable

我有一个 Makefile 包含以下几行,它在本地 CUDA 工具文件夹的根目录中四处寻找,并填充一个环境变量供以后使用。 在我的系统上,它现在生成“/usr/local/cuda-11.4”,用于查找标题和其他内容。 我的心愿是在我目前正在构建的 CMakeLists.txt 文件中复制它。 我想 ...

C++ 和 Fortran CUDA 基本示例之间的 nvprof output 差异 - Difference in nvprof output between a C++ and Fortran CUDA basic example

我在自学CUDA。 我的最终目标是将它应用到 Fortran,但是因为很多课程/视频都是基于 C/C++ 的,所以我经常最终会在两者中执行相同的练习(这是一件好事)。 目前,我正在尝试运行一个基本练习,它在 GPU 上执行 a(i) = b(i) + c(i)。为了完整起见,我发布了两个代码以进行比 ...

CUDA 在 kernel 启动后对 cudaDeviceSynchronize 进行错误检查可能无法捕获所有错误? - CUDA error checking on cudaDeviceSynchronize after kernel launch may not catch every error?

我最近在@talonmies 接受的答案中发现了一条评论,内容如下: 请注意,与所有其他 CUDA 错误不同,后续同步调用 CUDA 运行时 API 不会报告 kernel 启动错误。因此,仅将 gpuErrchk() 放在下一个 cudaMemcpy() 或 cudaDeviceSynchron ...

2023-01-20 20:11:22   1   31    cuda  
在NVIDIA gpu中,为什么运行时间随着线程数增加到gpu核心的3倍? - In NVIDIA gpu, Why is the elapse time the same as the number of thread increase to 3 times of gpu core?

这是我的cuda代码: 我编译我的代码,在2080Ti上运行,我发现线程消耗时间大约是214毫秒,但是线程数是gpu核心的3倍(在2080Ti上是4352) 所以我的问题是为什么运行时间和线程数一样增加到gpu核的3倍? 意思是NVIDIA gpu的计算能力是gpu核心的3倍? ...

捕获从 cudaLaunchHostFunc 中的回调抛出的异常 - Catching an exception thrown from a callback in cudaLaunchHostFunc

我想检查托管 memory 中的错误标志,该标志可能由运行在某个 stream 上的 kernel 编写。根据错误标志,我需要抛出异常。 我会简单地同步这个 stream 并从主机检查标志,但我需要从 CUDA 图表内部这样做。 AFAIK 我需要以某种方式在 cudaLaunchHostFunc ...

Jetson nano,可以在 python3 终端中使用 cuda,但不能在文件中使用 - Jetson nano, can use cuda in python3 terminal, but not in a file

如果我尝试在终端的 jetson nano 上使用 cuda: 但是,如果我启动一个具有相同内容的文件,则 output 为 False。 有谁知道如何解决这个问题? 我试过了:import os os.environ["CUDA_VISIBLE_DEVICES"] = "0" 并在 python ...

我如何使用原始指针 thrust::sort() 或 thrust::sort_by_key() - How do I thrust::sort() or thrust::sort_by_key() with raw pointers

我想使用带有 thrust::sort() 和 thrust::sort_by_key() 的原始设备指针对数组进行排序,因为它使用基数排序。 数据位于原始 uint64_t 设备指针中,我使用随机元素进行初始化以进行测试。 我查看了推力库,看到了一些简单地传入一个数组变量和数组变量加上大小的示例 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM