如何將64位操作數相乘並可移植地獲得128位結果？

Question

對於x64，我可以使用以下命令：

 {
   uint64_t hi, lo;
  // hi,lo = 64bit x 64bit multiply of c[0] and b[0]

   __asm__("mulq %3\n\t"
    : "=d" (hi),
  "=a" (lo)
    : "%a" (c[0]),
  "rm" (b[0])
    : "cc" );

   a[0] += hi;
   a[1] += lo;
 }

但我想隨便執行相同的計算。 例如在x86上工作。

Answer 1

據我了解的問題，您想要一個可移植的純C實現64位乘法，並輸出到128位值，並存儲在兩個64位值中。 在這種情況下，本文聲稱您擁有所需的東西。 該代碼是為C ++編寫的。 將它轉換為C代碼並不需要很多：

void mult64to128(uint64_t op1, uint64_t op2, uint64_t *hi, uint64_t *lo)
{
    uint64_t u1 = (op1 & 0xffffffff);
    uint64_t v1 = (op2 & 0xffffffff);
    uint64_t t = (u1 * v1);
    uint64_t w3 = (t & 0xffffffff);
    uint64_t k = (t >> 32);

    op1 >>= 32;
    t = (op1 * v1) + k;
    k = (t & 0xffffffff);
    uint64_t w1 = (t >> 32);

    op2 >>= 32;
    t = (u1 * op2) + k;
    k = (t >> 32);

    *hi = (op1 * op2) + w1 + k;
    *lo = (t << 32) + w3;
}

Answer 2

由於您將gcc用作標簽，因此請注意，您只能使用gcc的128位整數類型：

typedef unsigned __int128 uint128_t;
// ...
uint64_t x, y;
// ...
uint128_t result = (uint128_t)x * y;
uint64_t lo = result;
uint64_t hi = result >> 64;

Answer 3

我認為，公認的解決方案並不是真正的最佳解決方案。

閱讀起來很混亂。
它具有一些時髦的攜帶處理。
它沒有利用64位算術可用的事實。
它使ARMv6（絕對荒謬繁殖之神）不悅。 使用UMAAL任何人UMAAL應滯后，但要在4條指令中使用永恆的64位至128位乘法。

撇開玩笑，針對ARMv6進行優化要比其他任何平台都要好得多，因為它將帶來最大的好處。 x86需要復雜的例程，這將是一個死胡同的優化。

我發現的最佳方法（並在xxHash3中使用）是這種方法，它利用了使用宏的多種實現：

它比mult64to128慢一點點在x86（1-2指令），但在ARMv6快得多。

#include <stdint.h>
#ifdef _MSC_VER
#  include <intrin.h>
#endif

/* Prevents a partial vectorization from GCC. */
#if defined(__GNUC__) && !defined(__clang__) && defined(__i386__)
  __attribute__((__target__("no-sse")))
#endif
static uint64_t multiply64to128(uint64_t lhs, uint64_t rhs, uint64_t *high)
{
    /*
     * GCC and Clang usually provide __uint128_t on 64-bit targets,
     * although Clang also defines it on WASM despite having to use
     * builtins for most purposes - including multiplication.
     */
#if defined(__SIZEOF_INT128__) && !defined(__wasm__)
    __uint128_t product = (__uint128_t)lhs * (__uint128_t)rhs;
    *high = (uint64_t)(product >> 64);
    return (uint64_t)(product & 0xFFFFFFFFFFFFFFFF);

    /* Use the _umul128 intrinsic on MSVC x64 to hint for mulq. */
#elif defined(_MSC_VER) && defined(_M_IX64)
#   pragma intrinsic(_umul128)
    /* This intentionally has the same signature. */
    return _umul128(lhs, rhs, high);

#else
    /*
     * Fast yet simple grade school multiply that avoids
     * 64-bit carries with the properties of multiplying by 11
     * and takes advantage of UMAAL on ARMv6 to only need 4
     * calculations.
     */

    /* First calculate all of the cross products. */
    uint64_t lo_lo = (lhs & 0xFFFFFFFF) * (rhs & 0xFFFFFFFF);
    uint64_t hi_lo = (lhs >> 32)        * (rhs & 0xFFFFFFFF);
    uint64_t lo_hi = (lhs & 0xFFFFFFFF) * (rhs >> 32);
    uint64_t hi_hi = (lhs >> 32)        * (rhs >> 32);

    /* Now add the products together. These will never overflow. */
    uint64_t cross = (lo_lo >> 32) + (hi_lo & 0xFFFFFFFF) + lo_hi;
    uint64_t upper = (hi_lo >> 32) + (cross >> 32)        + hi_hi;

    *high = upper;
    return (cross << 32) | (lo_lo & 0xFFFFFFFF);
#endif /* portable */
}

在ARMv6上，至少在Clang上沒有比這更好的了：

multiply64to128:
        push    {r4, r5, r11, lr}
        umull   r12, r5, r2, r0
        umull   r2, r4, r2, r1
        umaal   r2, r5, r3, r0
        umaal   r4, r5, r3, r1
        ldr     r0, [sp, #16]
        mov     r1, r2
        strd    r4, r5, [r0]
        mov     r0, r12
        pop     {r4, r5, r11, pc}

接受的解決方案adds由於instcombine錯誤而產生一堆umull和adc ，以及在Clang中產生一個額外的umull。

我將在我發布的鏈接中進一步解釋可移植方法。

如何將64位操作數相乘並可移植地獲得128位結果？

問題描述

3 個解決方案

解決方案1
13 已采納 2014-08-02 14:44:17

解決方案2
9 2015-03-05 04:49:46

解決方案3
2 2019-10-14 16:54:11

如何將64位操作數相乘並可移植地獲得128位結果？

問題描述

3 個解決方案

解決方案1 13 已采納 2014-08-02 14:44:17

解決方案2 9 2015-03-05 04:49:46

解決方案3 2 2019-10-14 16:54:11

解決方案1
13 已采納 2014-08-02 14:44:17

解決方案2
9 2015-03-05 04:49:46

解決方案3
2 2019-10-14 16:54:11