AVX中的矩阵向量乘法不成比例地快于SSE

Question

我正在使用以下内容在SSE和AVX中编写矩阵向量乘法：

for(size_t i=0;i<M;i++) {
    size_t index = i*N;
    __m128 a, x, r1;
    __m128 sum = _mm_setzero_ps();
    for(size_t j=0;j<N;j+=4,index+=4) {
         a = _mm_load_ps(&A[index]);
         x = _mm_load_ps(&X[j]);
         r1 = _mm_mul_ps(a,x);
         sum = _mm_add_ps(r1,sum);
    }
    sum = _mm_hadd_ps(sum,sum);
    sum = _mm_hadd_ps(sum,sum);
    _mm_store_ss(&C[i],sum);
}

我对AVX使用了类似的方法，但最后，由于AVX没有与_mm_store_ss()的等效指令，我使用了：

_mm_store_ss(&C[i],_mm256_castps256_ps128(sum));

SSE代码比串行代码的速度提高了3.7。 但是，AVX代码比串行代码的速度提高了4.3。

我知道将SSE与AVX一起使用可能会导致问题，但我使用g ++编译了-mavx'标志，这应该删除SSE操作码。

我也可以使用： _mm256_storeu_ps(&C[i],sum)做同样的事情，但加速是一样的。

关于我还能做些什么来提高性能的任何见解？ 它可以与： performance_memory_bound相关，虽然我不明白该线程的答案。

此外，即使包含“immintrin.h”头文件，我也无法使用_mm_fmadd_ps（）指令。 我启用了FMA和AVX。

Answer 1

我建议你重新考虑你的算法。 请参阅讨论使用SSE进行高效4x4矩阵向量乘法：水平加点和点积 - 有什么意义？

你正在做一个长点产品并且每次迭代使用_mm_hadd_ps 。 相反，你应该使用SSE一起做四个点产品（八个用AVX）并且只使用垂直操作符。

您需要添加，乘法和广播。 这可以在SSE中使用_mm_add_ps ， _mm_mul_ps和_mm_shuffle_ps （用于广播）完成。

如果你已经有了矩阵的转置，这非常简单。

但无论您是否有转置，您都需要使代码更加缓存友好。 为了解决这个问题，我建议对矩阵进行循环平铺。 请参阅此讨论在C ++中转置矩阵的最快方法是什么？ 了解如何进行循环平铺。

在尝试SSE / AVX之前，我会先尝试将循环平铺放到第一位。 我在矩阵乘法中获得的最大提升不是来自SIMD，也不是来自循环平铺的线程。 我认为如果你获得了缓存使用权，你的AVX代码也会比SSE更加线性。

Answer 2

考虑这段代码。 我不熟悉INTEL版本，但这比DirectX中的XMMatrixMultiply要快。 这不是关于每条指令完成了多少数学运算，而是关于减少指令数量（只要你使用快速指令，这个实现就是这样）。

// Perform a 4x4 matrix multiply by a 4x4 matrix 
// Be sure to run in 64 bit mode and set right flags
// Properties, C/C++, Enable Enhanced Instruction, /arch:AVX 
// Having MATRIX on a 32 byte bundry does help performance
struct MATRIX {
    union {
        float  f[4][4];
        __m128 m[4];
        __m256 n[2];
    };
}; MATRIX myMultiply(MATRIX M1, MATRIX M2) {
    MATRIX mResult;
    __m256 a0, a1, b0, b1;
    __m256 c0, c1, c2, c3, c4, c5, c6, c7;
    __m256 t0, t1, u0, u1;

    t0 = M1.n[0];                                                   // t0 = a00, a01, a02, a03, a10, a11, a12, a13
    t1 = M1.n[1];                                                   // t1 = a20, a21, a22, a23, a30, a31, a32, a33
    u0 = M2.n[0];                                                   // u0 = b00, b01, b02, b03, b10, b11, b12, b13
    u1 = M2.n[1];                                                   // u1 = b20, b21, b22, b23, b30, b31, b32, b33

    a0 = _mm256_shuffle_ps(t0, t0, _MM_SHUFFLE(0, 0, 0, 0));        // a0 = a00, a00, a00, a00, a10, a10, a10, a10
    a1 = _mm256_shuffle_ps(t1, t1, _MM_SHUFFLE(0, 0, 0, 0));        // a1 = a20, a20, a20, a20, a30, a30, a30, a30
    b0 = _mm256_permute2f128_ps(u0, u0, 0x00);                      // b0 = b00, b01, b02, b03, b00, b01, b02, b03  
    c0 = _mm256_mul_ps(a0, b0);                                     // c0 = a00*b00  a00*b01  a00*b02  a00*b03  a10*b00  a10*b01  a10*b02  a10*b03
    c1 = _mm256_mul_ps(a1, b0);                                     // c1 = a20*b00  a20*b01  a20*b02  a20*b03  a30*b00  a30*b01  a30*b02  a30*b03

    a0 = _mm256_shuffle_ps(t0, t0, _MM_SHUFFLE(1, 1, 1, 1));        // a0 = a01, a01, a01, a01, a11, a11, a11, a11
    a1 = _mm256_shuffle_ps(t1, t1, _MM_SHUFFLE(1, 1, 1, 1));        // a1 = a21, a21, a21, a21, a31, a31, a31, a31
    b0 = _mm256_permute2f128_ps(u0, u0, 0x11);                      // b0 = b10, b11, b12, b13, b10, b11, b12, b13
    c2 = _mm256_mul_ps(a0, b0);                                     // c2 = a01*b10  a01*b11  a01*b12  a01*b13  a11*b10  a11*b11  a11*b12  a11*b13
    c3 = _mm256_mul_ps(a1, b0);                                     // c3 = a21*b10  a21*b11  a21*b12  a21*b13  a31*b10  a31*b11  a31*b12  a31*b13

    a0 = _mm256_shuffle_ps(t0, t0, _MM_SHUFFLE(2, 2, 2, 2));        // a0 = a02, a02, a02, a02, a12, a12, a12, a12
    a1 = _mm256_shuffle_ps(t1, t1, _MM_SHUFFLE(2, 2, 2, 2));        // a1 = a22, a22, a22, a22, a32, a32, a32, a32
    b1 = _mm256_permute2f128_ps(u1, u1, 0x00);                      // b0 = b20, b21, b22, b23, b20, b21, b22, b23
    c4 = _mm256_mul_ps(a0, b1);                                     // c4 = a02*b20  a02*b21  a02*b22  a02*b23  a12*b20  a12*b21  a12*b22  a12*b23
    c5 = _mm256_mul_ps(a1, b1);                                     // c5 = a22*b20  a22*b21  a22*b22  a22*b23  a32*b20  a32*b21  a32*b22  a32*b23

    a0 = _mm256_shuffle_ps(t0, t0, _MM_SHUFFLE(3, 3, 3, 3));        // a0 = a03, a03, a03, a03, a13, a13, a13, a13
    a1 = _mm256_shuffle_ps(t1, t1, _MM_SHUFFLE(3, 3, 3, 3));        // a1 = a23, a23, a23, a23, a33, a33, a33, a33
    b1 = _mm256_permute2f128_ps(u1, u1, 0x11);                      // b0 = b30, b31, b32, b33, b30, b31, b32, b33
    c6 = _mm256_mul_ps(a0, b1);                                     // c6 = a03*b30  a03*b31  a03*b32  a03*b33  a13*b30  a13*b31  a13*b32  a13*b33
    c7 = _mm256_mul_ps(a1, b1);                                     // c7 = a23*b30  a23*b31  a23*b32  a23*b33  a33*b30  a33*b31  a33*b32  a33*b33

    c0 = _mm256_add_ps(c0, c2);                                     // c0 = c0 + c2 (two terms, first two rows)
    c4 = _mm256_add_ps(c4, c6);                                     // c4 = c4 + c6 (the other two terms, first two rows)
    c1 = _mm256_add_ps(c1, c3);                                     // c1 = c1 + c3 (two terms, second two rows)
    c5 = _mm256_add_ps(c5, c7);                                     // c5 = c5 + c7 (the other two terms, second two rose)

    // Finally complete addition of all four terms and return the results
    mResult.n[0] = _mm256_add_ps(c0, c4);       // n0 = a00*b00+a01*b10+a02*b20+a03*b30  a00*b01+a01*b11+a02*b21+a03*b31  a00*b02+a01*b12+a02*b22+a03*b32  a00*b03+a01*b13+a02*b23+a03*b33
                                                //      a10*b00+a11*b10+a12*b20+a13*b30  a10*b01+a11*b11+a12*b21+a13*b31  a10*b02+a11*b12+a12*b22+a13*b32  a10*b03+a11*b13+a12*b23+a13*b33
    mResult.n[1] = _mm256_add_ps(c1, c5);       // n1 = a20*b00+a21*b10+a22*b20+a23*b30  a20*b01+a21*b11+a22*b21+a23*b31  a20*b02+a21*b12+a22*b22+a23*b32  a20*b03+a21*b13+a22*b23+a23*b33
                                                //      a30*b00+a31*b10+a32*b20+a33*b30  a30*b01+a31*b11+a32*b21+a33*b31  a30*b02+a31*b12+a32*b22+a33*b32  a30*b03+a31*b13+a32*b23+a33*b33
    return mResult;
}

Answer 3

正如有人已经建议的那样，添加-funroll-loops

奇怪的是，这不是默认设置。

使用__restrict来定义任何浮点指针。 使用const作为常量数组引用。 我不知道编译器是否足够智能以识别循环内的3个中间值不需要从迭代到迭代保持活动。 我只是删除这3个变量或至少使它们在循环内部（a，x，r1）。 可以声明索引，声明j以使其更加本地化。 确保M和N声明为const，如果它们的值是编译时常量，让编译器看到它们。

Answer 4

再一次，如果你想建立自己的矩阵乘法算法， 请停止 。 我记得在英特尔的AVX论坛上，他们的一位工程师承认他们用了很长时间来编写AVX组件以达到AVX理论吞吐量，以便将两个矩阵（ 特别是小矩阵 ）相乘，因为AVX加载和存储指令在那一刻，更不用说克服并行版本的线程开销的困难了。

请安装英特尔数学核心库 ，花半小时阅读手册和代码1行来调用库，完成！

AVX中的矩阵向量乘法不成比例地快于SSE

问题描述

4 个解决方案

解决方案1
5 2013-11-08 09:01:37

解决方案2
2 2017-09-05 15:31:55

解决方案3
1

解决方案4
-1 2015-01-19 13:30:41

AVX中的矩阵向​​量乘法不成比例地快于SSE

问题描述

4 个解决方案

解决方案1 5 2013-11-08 09:01:37

解决方案2 2 2017-09-05 15:31:55

解决方案3 1

解决方案4 -1 2015-01-19 13:30:41

AVX中的矩阵向量乘法不成比例地快于SSE

解决方案1
5 2013-11-08 09:01:37

解决方案2
2 2017-09-05 15:31:55

解决方案3
1

解决方案4
-1 2015-01-19 13:30:41