标签[gpgpu] - 堆栈内存溢出

如何安装旧版本的 OpenCL？ - How to install an older version of OpenCL?

在Windows 11上安装NVIDIA GeForce RTX 3060 Ti显卡驱动时，安装了OpenCL 3.0版本。如何安装 OpenCL 2.0 版？尝试安装旧版本的 NVIDIA 驱动程序，但它们没有安装在 Windows 11 上。 ...

CPU 中的集成 GPU 是否有通过 PCIe 总线传输数据的开销，就像在 CPU 和专用 GPU 之间传输数据一样？ - Do integrated GPUs in CPUs have the overhead of transferring data over the PCIe bus just like transferring data between CPU and dedicated GPU?

CPU 中的集成 GPU 是否有通过 PCIe 总线传输数据的开销，就像在 CPU 和专用 GPU 之间传输数据一样？我问这个问题是因为我的 OpenCL GPU 加速计算在集成的 GPU Intel(R) Iris(R) Xe Graphics 上的性能优于专用的 NVIDIA T500 G ...

在NVIDIA gpu中，ld/st和算术指令（比如int32 fp32）可以在同一个sm中同时运行吗？ - In NVIDIA gpu， Can ld/st and arithmetic instruction（such as int32 fp32 ）run simultaneously in same sm?

尤其是图灵和安培架构，在同一个sm和同一个warp调度器中，warp是否可以同时运行ld/st等算术指令？我想知道 warp scheduler 是如何工作的 ...

NVIDIA GPU 如何获取指令成本？ - How to get instruction cost in NVIDIA GPU？

我想知道nvidia gpu有多少时钟指令开销，比如add, mul，ld/st等等，我该怎么做？我写了一些代码在 2080Ti 上测试和运行但是结果让我有点疑惑，结果output是：在 gpu 阶段 1:6 0 为什么执行了这么多次 mul 指令，时钟成本只有 6 ？ nvcc 编译器是否 ...

优化蒙特卡洛算法 | 减少 GPU 和特征值问题的操作 | 多体问题 - Optimising Monte-Carlo algorithm | Reduce operation on GPU & Eigenvalues problem | Many-body problem

这个问题提醒一些典型的多体问题，但有一些额外的计算。我正在研究广义 Metropolis Monte-Carlo 算法，用于对大量任意量子系统（例如磁性离子）进行经典交互建模。但这实际上与问题无关。有超过 100000 个交互对象，每个对象都可以通过一个坐标和一组描述其当前 state r_i ...

OpenACC 通过 C++ 中的多个类访问并行化循环 - OpenACC parallelize loops with multiple classes access in C++

我正在尝试学习 OpenACC，但我研究的所有示例都是非常基础的，比如将向量移动到 GPU，计算一些和或乘法并将结果返回。如果代码中涉及其他数据结构会怎样？例如在 C++ 中，我想创建一个类来计算，然后对参与调查的人的猫使用的玩具进行一些数据分析。 “Person”是一个包含一些细节的类和所有 ...

时间片 GPU 调度器 - Time-sliced GPU scheduler

我看到了这个问题。答案是调度程序在最新的 MPS 文档中被描述为“时间片”调度程序，并且似乎正在发生的事情是，调度程序可以根据一些未发布的规则选择预-emp 正在运行的 kernel，以便它可以从另一个进程切换到另一个 kernel。 ... 但是，如 MPS 文档中所述，当 A 和 B 源自非 ...

SyCL ComputeCpp：如何在运行时同时支持 SPIR 和 PTX 位码 - SyCL ComputeCpp: how to support both SPIR and PTX bitcode at runtime

我最近用 SyCL ComputeCpp 库做了一些实验，我们的结果很好。然而，在我想要实现的应用程序中，我应该在运行时同时支持 nVidia 和 AMD/Intel 卡。在撰写本文时，在我看来 nVidia 并未对 spir64/spirv64 位码提供任何支持，迫使开发人员为每个项目创建 2 ...

为什么 CUDA 内核必须在执行任何操作之前检查“if (index < n)”？ - Why do CUDA kernels have to check `if (index < n)` before doing anything?

这就是恼人的样板文件的定义。显然 kernel 不应该在索引 >= n 的地方被调用。 OpenCL 不需要你做这样的边界检查，它已经在 kernel 之外为你完成了。 ...

如何精确测量 GPU（OpenACC+托管内存）的 memory 使用情况 - How to measure precisely the memory usage of the GPU (OpenACC+Managed Memory)

哪个是测量使用 OpenACC 和托管 Memory 的应用程序的 GPU 的 memory 使用的最精确方法？我使用了两种方法来做到这一点：一种是关于这里打印的内容，上面的 Memory 用法（10322MiB / 16160MiB）和下面的用法（./myapp 398MiB）有什么区别？我 ...

不可并行工作中的 Num Threads 权衡 - Num Threads trade-off in non-parallelizable work

我一直是个好孩子，并且并行化了我的计算着色器以执行 955 个线程进行 20 次迭代[numthreads(955, 1, 1)] void main( uint3 pos : SV_DispatchThreadID ) { ... for (uint i = 0; i < 2 ...

如何缓解 CPU 到 GPU 瓶颈 - How to mitigate CPU to GPU bottleneck

我正在使用 ComputeSharp 库在大量数据上运行计算着色器。数据集大约 10GB，分成更小的（大约 3Gb）块供 GPU 处理。问题是每个部分都需要大约 1 秒的时间来加载、计算和返回，即使计算几乎是即时的。我正在寻找一种方法来加快速度，因为现在它在某些情况下会被 CPU 超越。更多 ...

如何调整代码以利用 2013 Mac 上的 GPU？ - How can I adjust the code so it takes advantage of a GPU on an 2013 Mac?

我有一台 2013 Mac 电脑显示在其“关于此 Mac”的描述中。我想这意味着我的机器有一个 GPU。现在，我正在处理一段看起来像泰勒展开式的代码：如何调整代码以便利用此 GPU 来加速我的计算？人们用 CUDA 做了一些特殊的调整和编译。但我想知道如何调整这个临时 GPU 的代码和 ...

-ta=tesla:deepcopy 标志和#pragma acc 形状 - -ta=tesla:deepcopy flag and #pragma acc shape

我刚刚发现了 deepcopy 标志。直到此刻，我一直使用-ta=tesla:managed来处理深拷贝，我想探索替代方案。我读了这篇文章： https://www.pgroup.com/blogs/posts/deep-copy-beta.htm 写得很好，但我认为它不包括我的情况。我有这种 ...

Aparapi 无法解析最大值并回退到 CPU - Aparapi cannot resolve max and falls back to CPU

所以我在 Java 中设计了一个 CNN，我真的想要并行化卷积和池化。这是我的方法（行、列、inputLayer、convLayer、poolLayer 和特性已经在构造函数中初始化）：不是最漂亮的代码，但我已经很久没有使用过 Java，更不用说 Aparapi 了。最初我直接使用原来的 a ...

从多集的两个 3D arrays 中找到任意两个对应多集的交集大小的更快方法 - Faster way to find the size of the intersection of any two corresponding multisets from two 3D arrays of multisets

我在 MATLAB 中有两个uint16 3D (GPU) arrays A和B ，它们具有相同的第二维和第三维。例如， size(A,1) = 300 000 , size(B,1) = 2000 , size(A,2) = size(B,2) = 20 , size(A,3) = size(B ...

C++ CUDA Gridsize含义说明 - C++ CUDA Gridsize meaning clarification

我是 CUDA 编程的新手。我目前正在对大量大数据样本进行蒙特卡洛模拟。我试图动态最大化并计算要提交给 GPU 的块数。我遇到的问题是我不清楚如何计算一次可以提交给 GPU 的最大块数。这是查询时我的 GPU 的 output ：我不清楚的是，每个块的最大线程数明确定义为 1024，但网格 ...

尝试启用保守光栅化失败 - Trying to enable conservative rasterization fails

我正在尝试遵循 Sacha Willems 关于保守光栅化的示例。为此，我添加了尝试在制作设备时请求扩展：const std::vector<const char*> DEVICE_EXTENSIONS = { VK_KHR_SWAPCHAIN_EXTENSION_NAME, ...

Python-gnupg 找不到密钥 - Python-gnupg cant find secret key

我有一个 Ubuntu 20.04 服务器。在服务器上，我正在运行 python 脚本来解密一些 PGP 加密文件。我已将 PGP 密钥添加到密钥环，并且可以使用命令行解密文件： Python 脚本正在使用 python-gnupg。请看下面我的摘录。问题是当我运行这个 Python 代码 ...

应用计算着色器后纹理未更新 - Texture doesn't get updated after applying a compute shader

我正在尝试将计算着色器应用于纹理以更新其值。我知道仅仅 state 这不是一个很好的问题，但我确实花了很多时间试图完成这项工作。着色器程序编译良好。更改glMemoryBarrier(GL_SHADER_IMAGE_ACCESS_BARRIER_BIT); 行至glMemoryBarrier( ...