優化32位值的構造

Question

因此，我有以下代碼：

uint32_t val;
if (swap) {
   val = ((uint32_t)a & 0x0000ffff) | ((uint32_t)b << 16);
} else {
   val = ((uint32_t)b & 0x0000ffff) | ((uint32_t)a << 16);
}

有沒有一種方法可以對其進行優化，並以某種方式將swap檢查嵌入到語句中？

Answer 1

如果目標是避免分支，則可以編寫以下代碼：

val = ((!!swap) * (uint32_t)a + (!swap) * (uint32_t)b) & 0x0000ffff)
        | (((!!swap) * (uint32_t)b + (!swap) * (uint32_t)a) << 16);

它使用的事實!x取值為0時swap是truthy和1時swap是falsey，所以也!!x評估為1時x是truthy，即使x本身不能1.乘以結果選擇a或b視情況而定）。

但是請注意，您現在具有多個邏輯和算術運算，而不是一個比較和分支。 尚不清楚這在實踐中是否可以提高性能。

由@ChristianGibbons提供：

[假設a和b保證為非負且小於2 ¹⁶ ，]您可以通過刪除按位AND分量並將乘法應用於移位而不是對參數進行運算，從而大大簡化此方法：

val = ((uint32_t) a << (16 * !swap)) | ((uint32_t)b << (16 * !!swap));

這樣做有更好的機會勝過原始代碼（但仍然不確定這樣做），但是在那種情況下，將與原始版本依賴輸入的相同屬性進行更公平的比較：

uint32_t val;
if (swap) {
   val = (uint32_t)a | ((uint32_t)b << 16);
} else {
   val = (uint32_t)b | ((uint32_t)a << 16);
}

Answer 2

那里我們沒有太多優化

這里有兩個版本

typedef union
{
    uint16_t u16[2];
    uint32_t u32;
}D32_t;


uint32_t foo(uint32_t a, uint32_t b, int swap)
{
    D32_t da = {.u32 = a}, db = {.u32 = b}, val;

    if(swap)
    {
        val.u16[0] = da.u16[1];
        val.u16[1] = db.u16[0];
    }
    else
    {
        val.u16[0] = db.u16[1];
        val.u16[1] = da.u16[0];
    }

    return val.u32;
}


uint32_t foo2(uint32_t a, uint32_t b, int swap)
{
    uint32_t val;
    if (swap) 
    {
        val = ((uint32_t)a & 0x0000ffff) | ((uint32_t)b << 16);
    } 
    else 
    {
        val = ((uint32_t)b & 0x0000ffff) | ((uint32_t)a << 16);
    }

    return val;
}

生成的代碼幾乎相同。

鐺：

foo:                                    # @foo
        mov     eax, edi
        test    edx, edx
        mov     ecx, esi
        cmove   ecx, edi
        cmove   eax, esi
        shrd    eax, ecx, 16
        ret
foo2:                                   # @foo2
        movzx   ecx, si
        movzx   eax, di
        shl     edi, 16
        or      edi, ecx
        shl     esi, 16
        or      eax, esi
        test    edx, edx
        cmove   eax, edi
        ret

gcc：

foo:
        test    edx, edx
        je      .L2
        shr     edi, 16
        mov     eax, esi
        mov     edx, edi
        sal     eax, 16
        mov     ax, dx
        ret
.L2:
        shr     esi, 16
        mov     eax, edi
        mov     edx, esi
        sal     eax, 16
        mov     ax, dx
        ret
foo2:
        test    edx, edx
        je      .L6
        movzx   eax, di
        sal     esi, 16
        or      eax, esi
        ret
.L6:
        movzx   eax, si
        sal     edi, 16
        or      eax, edi
        ret

https://godbolt.org/z/F4zOnf

如您所見，c喜歡工會，gcc轉移了。

Answer 3

與避免任何分支的John Bollinger的回答類似，我想出了以下方法來嘗試減少執行的運算量，尤其是乘法。

uint8_t shift_mask = (uint8_t) !swap * 16;
val = ((uint32_t) a << (shift_mask)) | ((uint32_t)b << ( 16 ^ shift_mask  ));

實際上，兩個編譯器都沒有使用乘法指令，因為這里唯一的乘法是2的冪，因此它僅使用簡單的左移來構造將用於移位a或b 。

使用Clang -O2拆卸原件

0000000000000000 <cat>:
   0:   85 d2                   test   %edx,%edx
   2:   89 f0                   mov    %esi,%eax
   4:   66 0f 45 c7             cmovne %di,%ax
   8:   66 0f 45 fe             cmovne %si,%di
   c:   0f b7 c0                movzwl %ax,%eax
   f:   c1 e7 10                shl    $0x10,%edi
  12:   09 f8                   or     %edi,%eax
  14:   c3                      retq   
  15:   66 66 2e 0f 1f 84 00    data16 nopw %cs:0x0(%rax,%rax,1)
  1c:   00 00 00 00

使用Clang -O2反匯編新版本

0000000000000000 <cat>:
   0:   80 f2 01                xor    $0x1,%dl
   3:   0f b6 ca                movzbl %dl,%ecx
   6:   c1 e1 04                shl    $0x4,%ecx
   9:   d3 e7                   shl    %cl,%edi
   b:   83 f1 10                xor    $0x10,%ecx
   e:   d3 e6                   shl    %cl,%esi
  10:   09 fe                   or     %edi,%esi
  12:   89 f0                   mov    %esi,%eax
  14:   c3                      retq   
  15:   66 66 2e 0f 1f 84 00    data16 nopw %cs:0x0(%rax,%rax,1)
  1c:   00 00 00 00

用gcc -O2拆卸原始版本

0000000000000000 <cat>:
   0:   84 d2                   test   %dl,%dl
   2:   75 0c                   jne    10 <cat+0x10>
   4:   89 f8                   mov    %edi,%eax
   6:   0f b7 f6                movzwl %si,%esi
   9:   c1 e0 10                shl    $0x10,%eax
   c:   09 f0                   or     %esi,%eax
   e:   c3                      retq   
   f:   90                      nop
  10:   89 f0                   mov    %esi,%eax
  12:   0f b7 ff                movzwl %di,%edi
  15:   c1 e0 10                shl    $0x10,%eax
  18:   09 f8                   or     %edi,%eax
  1a:   c3                      retq

用gcc -O2拆卸新版本

0000000000000000 <cat>:
   0:   83 f2 01                xor    $0x1,%edx
   3:   0f b7 c6                movzwl %si,%eax
   6:   0f b7 ff                movzwl %di,%edi
   9:   c1 e2 04                shl    $0x4,%edx
   c:   89 d1                   mov    %edx,%ecx
   e:   83 f1 10                xor    $0x10,%ecx
  11:   d3 e0                   shl    %cl,%eax
  13:   89 d1                   mov    %edx,%ecx
  15:   d3 e7                   shl    %cl,%edi
  17:   09 f8                   or     %edi,%eax
  19:   c3                      retq

編輯：正如約翰·博林格（John Bollinger）指出的那樣，此解決方案是在a和b是無符號值的情況下編寫的，從而使位掩碼變得多余。 如果此方法與32位以下的帶符號值一起使用，則需要進行修改：

uint8_t shift_mask = (uint8_t) !swap * 16;
val = ((uint32_t) (a & 0xFFFF) << (shift_mask)) | ((uint32_t) (b & 0xFFFF) << ( 16 ^ shift_mask  ));

我不會深入探討該版本的反匯編，但是這是-O2的clang輸出：

0000000000000000 <cat>:
   0:   80 f2 01                xor    $0x1,%dl
   3:   0f b6 ca                movzbl %dl,%ecx
   6:   c1 e1 04                shl    $0x4,%ecx
   9:   0f b7 d7                movzwl %di,%edx
   c:   d3 e2                   shl    %cl,%edx
   e:   0f b7 c6                movzwl %si,%eax
  11:   83 f1 10                xor    $0x10,%ecx
  14:   d3 e0                   shl    %cl,%eax
  16:   09 d0                   or     %edx,%eax
  18:   c3                      retq   
  19:   0f 1f 80 00 00 00 00    nopl   0x0(%rax)

為了回應P__J__在性能方面與他的聯合解決方案有關的問題，以下是lang在-O3發出的關於此代碼版本的信息，該版本可安全處理帶符號的類型：

0000000000000000 <cat>:
   0:   85 d2                   test   %edx,%edx
   2:   89 f0                   mov    %esi,%eax
   4:   66 0f 45 c7             cmovne %di,%ax
   8:   66 0f 45 fe             cmovne %si,%di
   c:   0f b7 c0                movzwl %ax,%eax
   f:   c1 e7 10                shl    $0x10,%edi
  12:   09 f8                   or     %edi,%eax
  14:   c3                      retq   
  15:   66 66 2e 0f 1f 84 00    data16 nopw %cs:0x0(%rax,%rax,1)
  1c:   00 00 00 00

在總指令中它更接近於聯合解決方案，但是不使用SHRD，根據此答案，在Intel Skylake處理器上執行需要4個時鍾，並占用多個操作單元。 我會很好奇地好奇他們各自的表現如何。

Answer 4

val = swap ? ((uint32_t)a & 0x0000ffff) | ((uint32_t)b << 16) : ((uint32_t)b & 0x0000ffff) | ((uint32_t)a << 16);

這將實現您要求的“嵌入”。 但是，我不建議這樣做，因為它會使可讀性變差並且沒有運行時優化。

Answer 5

用-O3編譯。 對於64位處理器， GCC和Clang的策略略有不同。 GCC使用分支生成代碼，而Clang將同時運行兩個分支，然后使用條件移動。 GCC和Clang都將生成“零擴展到int的短整數”指令，而不是and 。

使用?:沒有改變生成的代碼。

Clang版本似乎確實更有效。

總而言之，如果您不需要交換，兩者都會生成相同的代碼。

優化32位值的構造

問題描述

5 個解決方案

解決方案1
2 2019-04-22 19:27:45

解決方案2
1 2019-04-22 19:21:12

解決方案3
1 2019-04-22 20:16:20

解決方案4
0 2019-04-22 19:20:24

解決方案5
0 2019-04-22 19:20:41

優化32位值的構造

問題描述

5 個解決方案

解決方案1 2 2019-04-22 19:27:45

解決方案2 1 2019-04-22 19:21:12

解決方案3 1 2019-04-22 20:16:20

解決方案4 0 2019-04-22 19:20:24

解決方案5 0 2019-04-22 19:20:41

解決方案1
2 2019-04-22 19:27:45

解決方案2
1 2019-04-22 19:21:12

解決方案3
1 2019-04-22 20:16:20

解決方案4
0 2019-04-22 19:20:24

解決方案5
0 2019-04-22 19:20:41