performance - 一些通用寄存器比其他寄存器快吗？

特定编码特别慢的特殊情况，而不仅仅是大小

如果寻址模式还没有+displacement常数，则以 RBP 或 R13 作为基础的 LEA 在 Intel 上可能会更慢。

例如lea eax, [rbp + 12]是可编码的，并且与lea eax, [rcx + 12]一样快。

但是lea eax, [rbp + rcx*4]只能在机器码中编码为lea eax, [rbp + rcx*4 + 0] （因为寻址模式 escape-code stuff ），它是一个 3-component LEA，因此在 Intel 上较慢（Sandybridge 系列的 3 个周期延迟而不是 1 个周期，请参阅https://agner.org/optimize/指令表和 microarch PDF）。 在 AMD 上，即使使用lea eax, [rdx + rcx*4]

在 LEA 之外，在任何寻址模式中使用 RBP / R13 作为基础总是需要一个disp8/32字节或 dword，但我认为实际的 AGU 对于 3 组件寻址模式并不慢。 所以这只是代码大小的影响。

其他案例包括哪个英特尔微架构引入了 ADC reg,0 单微指令特殊案例？ 其中， adc al, imm8的短格式 2 字节编码是 2 uop，即使在像 Skylake 这样的现代 uarches 上，其中adc bl, imm8是 1 uop。

因此， adc reg,0的特殊情况不仅不适用于 Sandybridge 上的adc al,0通过 Haswell、Broadwell 和更新的人忘记（或选择不）优化编码解码到 uops 的方式。 （当然，您可以使用 3 字节 Mod/RM 编码手动编码adc al,0 ，但汇编程序将始终选择最短的编码，因此默认情况下adc al,0将汇编为短格式。）只有字节寄存器有问题; adc eax,0将使用opcode ModRM imm8 3 字节编码，而不是 5 字节opcode imm32 。

对于op al,imm8的其他情况，唯一的区别是代码大小，这只是间接影响性能。 （因为解码、uop-cache 打包和 I-cache 未命中）。

有关代码大小特殊情况的更多信息，请参阅使用 x86/x64 机器代码打高尔夫球的技巧，例如xchg eax, ecx为 1 字节与xchg edx, ecx为 2 字节。

add rsp, 8可能需要额外的堆栈同步 uop（当然，沿着执行路径，不在 static 代码布局中）。 （什么是 Sandybridge 微架构中的堆栈引擎？）。 这就是为什么像clang这样的编译器使用虚拟推送或弹出来保留/释放单个堆栈槽的原因：为什么这个 function 将 RAX 推送到堆栈作为第一个操作？