使用內在函數向量化矩陣乘法的加法部分？

Question

我正在嘗試使用分塊和向量內在函數向量化矩陣乘法。 在我看來，向量乘法中的加法部分無法向量化。 您能否看一下我是否可以改進代碼以進一步向量化？

    double dd[4], bb[4];
    __m256d op_a, op_b, op_d;
    for(i = 0; i < num_blocks; i++){
        for(j = 0; j < num_blocks; j++){
            for(k = 0; k < num_blocks; k++){
                for(ii = 0; ii < block_size ; ii++){
                    for(kk = 0; kk < block_size; kk++){
                        for(jj = 0; jj < block_size ; jj+=4){

                            aoffset=n*(i*block_size+ii)+j*block_size +jj ;
                            boffset=n*(j*block_size+jj)+k*block_size +kk;
                            coffset=n*(i*block_size+ii)+ k*block_size + kk;

                            bb[0]=b[n*(j*block_size+jj)+k*block_size +kk];
                            bb[1]=b[n*(j*block_size+jj+1)+k*block_size +kk];
                            bb[2]=b[n*(j*block_size+jj+2)+k*block_size +kk];
                            bb[3]=b[n*(j*block_size+jj+3)+k*block_size +kk];

                            op_a = _mm256_loadu_pd (a+aoffset);
                            op_b= _mm256_loadu_pd (bb);
                            op_d = _mm256_mul_pd(op_a, op_b);
                            _mm256_storeu_pd (dd, op_d);
                            c[coffset]+=(dd[0]+dd[1]+dd[2]+dd[3]);

                        }
                    }
                }
            }
        }
    }

謝謝。

Answer 1

您可以使用以下版本的矩陣乘法（c [i，j] = a [i，k] * b [k，j]）算法（標量版本）：

for(int i = 0; i < i_size; ++i)
{
    for(int j = 0; j < j_size; ++j)
         c[i][j] = 0;

    for(int k = 0; k < k_size; ++k)
    {
         double aa = a[i][k];
         for(int j = 0; j < j_size; ++j)
             c[i][j] += aa*b[k][j];
    }
}

和向量化版本：

for(int i = 0; i < i_size; ++i)
{
    for(int j = 0; j < j_size; j += 4)
         _mm256_store_pd(c[i] + j, _mm256_setzero_pd());

    for(int k = 0; k < k_size; ++k)
    {
         __m256d aa = _mm256_set1_pd(a[i][k]);
         for(int j = 0; j < j_size; j += 4)
         {
             _mm256_store_pd(c[i] + j, _mm256_add_pd(_mm256_load_pd(c[i] + j), _mm256_mul_pd(aa, _mm256_load_pd(b[k] + j))));
         }
    }
}

Answer 2

“水平添加”是SSE指令集的最新版本，因此，如果要實現與許多不同處理器的兼容性，則不能使用加速版本。

但是，您絕對可以對添加的向量進行矢量化處理。 注意，內部循環僅影響單個coffset 。 您應該向外移動coffset計算（編譯器將自動執行此操作，但如果這樣做，則代碼更具可讀性），並且在最里面的循環中使用四個累加器，每個coffset僅執行一次水平coffset 。 即使使用向量水平加法，這也是一個改進，對於標量水平加法，它相當大。

就像是：

for(kk = 0; kk < block_size; kk++){
    op_e = _mm256_setzero_pd();

    for(jj = 0; jj < block_size ; jj+=4){
        aoffset=n*(i*block_size+ii)+j*block_size +jj ;
        boffset=n*(j*block_size+jj)+k*block_size +kk;

        bb[0]=b[n*(j*block_size+jj)+k*block_size +kk];
        bb[1]=b[n*(j*block_size+jj+1)+k*block_size +kk];
        bb[2]=b[n*(j*block_size+jj+2)+k*block_size +kk];
        bb[3]=b[n*(j*block_size+jj+3)+k*block_size +kk];

        op_a = _mm256_loadu_pd (a+aoffset);
        op_b= _mm256_loadu_pd (bb);
        op_d = _mm256_mul_pd(op_a, op_b);
        op_e = _mm256_add_pd(op_e, op_d);
    }
    _mm256_storeu_pd(dd, op_e);
    coffset = n*(i*block_size+ii)+ k*block_size + kk;
    c[coffset] = (dd[0]+dd[1]+dd[2]+dd[3]);
}

您也可以通過預先在b上進行轉置來加快速度，而不是將矢量收集在最里面的循環內。

使用內在函數向量化矩陣乘法的加法部分？

問題描述

2 個解決方案

解決方案1
1 2014-10-27 15:07:48

解決方案2
0 2014-10-27 15:12:19

使用內在函數向量化矩陣乘法的加法部分？

問題描述

2 個解決方案

解決方案1 1 2014-10-27 15:07:48

解決方案2 0 2014-10-27 15:12:19

解決方案1
1 2014-10-27 15:07:48

解決方案2
0 2014-10-27 15:12:19