标签[gpu-local-memory] - 堆栈内存溢出

OpenCL 本地 memory 存在于 Mali/Adreno GPU - OpenCL local memory exists on Mali/Adreno GPU

OpenCL local memory是真的存在于Mali/Adreno GPU上还是只存在于一些特殊的手机中？如果它们存在，在什么情况下我们应该使用本地 memory，例如 GEMM/Conv 或其他 cl kernel？ ...

Vulkan 是否支持本地子组 memory 共享和操作？ - Does Vulkan support local subgroup memory sharing and manipulation?

在 OpenCL 中，每当我想操作子组 memory 时，我都可以使用__local 。类似地，CUDA 具有__shared__关键字。 Vulkan 有等效的东西吗？我在子组教程https://www.khronos.org/blog/vulkan-subgroup-tutorial 中看 ...

强制工作组中的所有线程执行相同的 if/else 分支 - Force all threads in a work group to execute the same if/else branch

我想使用本地/共享内存优化来减少全局内存访问，所以我基本上有这个功能 float __attribute__((always_inline)) test_unoptimized(const global float* data, ...) { // ... for(uint j=0; ...

本地内存：CUDA演示文稿 - Local Memory: cuda presentation

我正在阅读此演示文稿文档： http : //on-demand.gputechconf.com/gtc-express/2011/presentations/register_spilling.pdf 在演示文稿的第3页中，作者声明：存储总是在加载之前发生–只有GPU线程可以访问 ...

每个CUDA线程的本地内存量 - Amount of local memory per CUDA thread

我在NVIDIA文档（ http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#features-and-technical-specifications,table#12 ）中读到每个线程的本地内存量我的GPU是512 K ...

为什么简单的CUDA函数需要那么多的本地内存？ - Why a simple CUDA function needs so much local memory?

我已经在CUDA上编写了一个简单的函数。它会将图像的大小调整为两倍。对于1920 * 1080的图像，此功能大约需要20毫秒才能完成。我尝试了一些不同的方法来优化该功能。而且我发现可能是本地内存是关键原因。我尝试了三种不同的方法来获取图像。 OpenCV中的Gp ...

CUDA本地内存寄存器溢出开销 - CUDA Local memory register spilling overhead

我有一个使用大量寄存器的内核，并将其大量溢出到本地内存中。由于溢出似乎很高，我相信它会超过L1甚至L2缓存。由于本地内存是每个线程专用的，因此编译器如何合并对本地内存的访问？是否在像全局内存这样的128字节事务中读取此内存？有了这么多的溢出，我的内存带宽利用率就很低（50％ ...

CUDA有效使用共享/本地内存？ - CUDA efficient usage of shared/local memory?

对于CUDA中的共享/本地内存，我仍然不确定。目前我有一个内核，内核中的每个线程都分配一个列表对象。像这样根据我目前的理解，每个线程都会将其自己的dlist存储在本地内存中，这是真的吗？如果是这样的话，内核执行结束时是否有办法（从另一个内核中）获取每个dlist对象，还是应 ...

本地，全局，恒定和共享内存 - Local, global, constant & shared memory

我阅读了一些有关本地内存的CUDA文档。（主要是早期文档。）device-properties报告本地内存大小（每个线程）。 “本地”内存是什么意思？什么是“本地”内存？ “本地”内存在哪里？如何访问“本地”内存？是__device__内存，不是吗？设备属性还报告：全 ...

在CUDA内核中，如何将数组存储在“本地线程内存”中？ - In a CUDA kernel, how do I store an array in “local thread memory”?

我正在尝试使用CUDA开发一个小程序，但由于它是SLOW，我做了一些测试并用Google搜索了一下。我发现虽然单个变量默认存储在本地线程内存中，但数组通常不存在。我想这就是为什么它花了这么多时间来执行。现在我想知道：因为本地线程内存至少应该是16KB，因为我的数组就像52个字符长，有 ...

本地内存访问是否合并？ - Is local memory access coalesced?

假设我在CUDA内核函数中为每个线程声明了一个局部变量：还假设，已声明的变量由编译器放置到本地内存中（与全局变量相同，只是据我所知仅对一个线程可见）。我的问题是阅读时会合并对f的访问吗？ ...

本地内存比CUDA中的共享内存慢吗？ - Is local memory slower than shared memory in CUDA?

我只发现本地内存比寄存器内存慢，每个线程两种类型。共享内存应该很快，但它比[线程]的本地内存更快？我想要做的是一种中值滤波器，但具有给定的百分位而不是中位数。因此，我需要获取列表的块，对它们进行排序，然后选择一个合适的列表。但我无法开始对共享内存列表进行排序或出现问题。 ...