cost 223 ms
为什么简单的CUDA函数需要那么多的本地内存? - Why a simple CUDA function needs so much local memory?

我已经在CUDA上编写了一个简单的函数。 它会将图像的大小调整为两倍。 对于1920 * 1080的图像,此功能大约需要20毫秒才能完成。 我尝试了一些不同的方法来优化该功能。 而且我发现可能是本地内存是关键原因。 我尝试了三种不同的方法来获取图像。 OpenCV中的Gp ...

CUDA本地内存寄存器溢出开销 - CUDA Local memory register spilling overhead

我有一个使用大量寄存器的内核,并将其大量溢出到本地内存中。 由于溢出似乎很高,我相信它会超过L1甚至L2缓存。 由于本地内存是每个线程专用的,因此编译器如何合并对本地内存的访问? 是否在像全局内存这样的128字节事务中读取此内存? 有了这么多的溢出,我的内存带宽利用率就很低(50% ...

CUDA有效使用共享/本地内存? - CUDA efficient usage of shared/local memory?

对于CUDA中的共享/本地内存,我仍然不确定。 目前我有一个内核,内核中的每个线程都分配一个列表对象。 像这样 根据我目前的理解,每个线程都会将其自己的dlist存储在本地内存中,这是真的吗? 如果是这样的话,内核执行结束时是否有办法(从另一个内核中)获取每个dlist对象,还是应 ...

本地,全局,恒定和共享内存 - Local, global, constant & shared memory

我阅读了一些有关本地内存的CUDA文档。 (主要是早期文档。)device-properties报告本地内存大小(每个线程)。 “本地”内存是什么意思? 什么是“本地”内存? “本地”内存在哪里? 如何访问“本地”内存? 是__device__内存,不是吗? 设备属性还报告:全 ...

在CUDA内核中,如何将数组存储在“本地线程内存”中? - In a CUDA kernel, how do I store an array in “local thread memory”?

我正在尝试使用CUDA开发一个小程序,但由于它是SLOW,我做了一些测试并用Google搜索了一下。 我发现虽然单个变量默认存储在本地线程内存中,但数组通常不存在。 我想这就是为什么它花了这么多时间来执行。 现在我想知道:因为本地线程内存至少应该是16KB,因为我的数组就像52个字符长,有 ...

本地内存比CUDA中的共享内存慢吗? - Is local memory slower than shared memory in CUDA?

我只发现本地内存比寄存器内存慢,每个线程两种类型。 共享内存应该很快,但它比[线程]的本地内存更快? 我想要做的是一种中值滤波器,但具有给定的百分位而不是中位数。 因此,我需要获取列表的块,对它们进行排序,然后选择一个合适的列表。 但我无法开始对共享内存列表进行排序或出现问题。 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM