
[英]In NVIDIA gpu, Can ld/st and arithmetic instruction(such as int32 fp32 )run simultaneously in same sm?
尤其是图灵和安培架构,在同一个sm和同一个warp调度器中,warp是否可以同时运行ld/st等算术指令? 我想知道 warp scheduler 是如何工作的 ...
[英]In NVIDIA gpu, Can ld/st and arithmetic instruction(such as int32 fp32 )run simultaneously in same sm?
尤其是图灵和安培架构,在同一个sm和同一个warp调度器中,warp是否可以同时运行ld/st等算术指令? 我想知道 warp scheduler 是如何工作的 ...
[英]How to a warp cause another warp be in the Idle state?
正如您在问题标题中所看到的,我想知道一个翘曲是如何导致另一个翘曲进入空闲状态的。 我在SO中阅读了很多Q / A,但找不到答案。 在任何时候,一次只能运行一个扭曲? 如果是这样,则经纱的空闲状态没有任何意义,但是如果我们可以同时运行多个经纱,则每个经纱可以分别与其他经纱分开进行工作。 ...
[英]Is there a way to explicitly map a thread to a specific warp in CUDA?
可以说,动态分析是在CUDA程序上完成的,因此某些线程最好处于同一线程中。 例如,假设我们有1024个cuda线程,并且经线大小为32。经过动态分析,我们发现线程989、243、819,...,42(列出的32个线程)应该在同一经线上。 我们确定它们应该在相同的扭曲上,因为它们在代码执行 ...
[英]Questions of resident warps of CUDA
我已经使用CUDA了一个月,现在我想弄清楚要隐藏内存访问的延迟需要多少个扭曲/块。 我认为这与多处理器上的最大常驻扭曲有关。 根据CUDA_C_Programming_Guide(v-7.5)中的表13,每个多处理器的驻留扭曲最大为64。那么,我的问题是:驻留扭曲是什么? 它是指那些具 ...
[英]Why there are two warp schedulers in a SM of GPU?
我读了NVIDIA Fermi白皮书,当我计算SP核心,调度程序的数量时感到困惑。 根据白皮书,在每个SM中,有两个warp调度器和两个指令调度单元,允许两个warp同时发出和执行。 SM中有32个SP内核,每个内核都有一个完全流水线的ALU和FPU,用于执行线程的指令 众所周知, ...
[英]CUDA Warps and Thread Divergence
我试图了解CUDA扭曲和线程分歧。 假设我有一个朴素矩阵乘法内核来乘以nxn矩阵。 如果我启动一个网格大小为32乘32且块大小为16乘16并且矩阵为500乘500的内核,那么有多少warp会遇到会遇到线程分歧的线程? 由于矩阵右边缘的每个线程块都有线程发散,因此线程发散的经线数不 ...
[英]CUDA Kepler: not enough ALUs
根据开普勒白皮书,基于开普勒的GPU的扭曲大小为32,每个多处理器包含4个扭曲时间表,这些时间表从选定的扭曲中选择两个独立的指令。 这意味着每个时钟周期将执行32 * 4 * 2 = 256个计算,但是一个多处理器仅包含192个ALU。 这些计算如何进行? ...
[英]What is the instruction issue time latency of the warp schedulers in CUDA?
我的印象是,计算能力1.x GPU中的(单个)warp调度程序每4个循环就向每个warp发出一条指令,并且由于算术管线的延迟为24个周期,因此可以通过6个活动warp完全隐藏它在任何时候。 对于计算能力2.1的GPU,《编程指南》提到“在每个指令发出时,每个调度程序都会发出两条独立的指令” ...
[英]cuda shared memory and block execution scheduling
我想用CUDA共享内存清除执行状态,并根据每个块使用的共享内存量来执行块执行 。 州 我的目标是GTX480 nvidia卡,该卡每块具有48KB 共享内存 ,并具有15个流式多处理器。 因此,如果我声明一个有15个块的内核,则每个块使用48KB的共享内存,并且没有达到其他限制(寄 ...
[英]blocks, threads, warpSize
有关如何选择#blocks和blockSize的讨论很多,但我仍然遗漏了一些东西。 我的许多问题都解决了这个问题: CUDA阻止/变形/线程如何映射到CUDA核心? (为了简化讨论,有足够的perThread和perBlock内存。内存限制在这里不是问题。) 1)为了保持SM尽可能忙 ...
[英]How do CUDA blocks/warps/threads map onto CUDA cores?
我已经使用CUDA几周了,但是我对块/线程/线程的分配有一些疑问。 我正在从教学角度 (大学项目) 研究体系结构 ,因此达到最佳性能不是我的关注。 首先,我想了解我是否明白这些事实: 程序员编写内核,并在线程块网格中组织其执行。 每个块都分配给一个流多处理器(SM)。 ...