簡體   English   中英

了解SSE3矩陣乘法優化

[英]Understanding SSE3 Matrix Multiplication Optimization

參考http://blogs.msdn.com/b/xiangfan/archive/2009/04/28/optimize-your-code-matrix-multiplication.aspx

template<>
void SeqMatrixMult4(int size, float** m1, float** m2, float** result)
{
    Transpose(size, m2);
    for (int i = 0; i < size; i++) {
        for (int j = 0; j < size; j++) {
            __m128 c = _mm_setzero_ps();

            for (int k = 0; k < size; k += 4) {
                c = _mm_add_ps(c, _mm_mul_ps(_mm_load_ps(&m1[i][k]), _mm_load_ps(&m2[j][k])));
            }
            c = _mm_hadd_ps(c, c);
            c = _mm_hadd_ps(c, c);
            _mm_store_ss(&result[i][j], c);
        }
    }
    Transpose(size, m2);
}

為什么最里面的for循環之后還有2個_mm_hadd_ps(c, c) 為了驗證我的理解:此代碼從m1加載4個浮點,從m2加載另外4個浮點,然后將它們相乘得到4個浮點( __m128 )。 然后我將它們加到c (此時,它還有4個浮點數?)。 然后在for循環之后,我hadd結果hadd兩次? 那是做什么的?


我的代碼被稍微重寫了,導致出現錯誤的結果

long long start, end;
__m128 v1, v2, vMul, vRes;
vRes = _mm_setzero_ps();

start = wall_clock_time();
transpose_matrix(m2);
for (int i = 0; i < SIZE; i++) {
    for (int j = 0; j < SIZE; j++) {
        float tmp = 0;
        for (int k = 0; k < SIZE; k+=4) {
            v1 = _mm_load_ps(&m1[i][k]);
            v2 = _mm_load_ps(&m2[j][k]);
            vMul = _mm_mul_ps(v1, v2);

            vRes = _mm_add_ps(vRes, vMul);
        }
        vRes = _mm_hadd_ps(vRes, vRes);
        _mm_store_ss(&result[i][j], vRes);
    }
}
end = wall_clock_time();
fprintf(stderr, "Optimized Matrix multiplication took %1.2f seconds\n", ((float)(end - start))/1000000000);

// reverse the transposition
transpose_matrix(m2);

haddps不能將向量中的所有四個元素求和。 需要兩個haddps指令才能獲得完整的水平和。

如果我們對向量{c0,c1,c2,c3}的元素編號,則第一個haddps會產生{c0+c1, c2+c3, c0+c1, c2+c3} 第二個產生{c0+c1+c2+c3, <same thing in the other lanes>}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM