[英]Vectorizing addition part of matrix multiplication using intrinsics?
我正在嘗試使用分塊和向量內在函數向量化矩陣乘法。 在我看來,向量乘法中的加法部分無法向量化。 您能否看一下我是否可以改進代碼以進一步向量化?
double dd[4], bb[4];
__m256d op_a, op_b, op_d;
for(i = 0; i < num_blocks; i++){
for(j = 0; j < num_blocks; j++){
for(k = 0; k < num_blocks; k++){
for(ii = 0; ii < block_size ; ii++){
for(kk = 0; kk < block_size; kk++){
for(jj = 0; jj < block_size ; jj+=4){
aoffset=n*(i*block_size+ii)+j*block_size +jj ;
boffset=n*(j*block_size+jj)+k*block_size +kk;
coffset=n*(i*block_size+ii)+ k*block_size + kk;
bb[0]=b[n*(j*block_size+jj)+k*block_size +kk];
bb[1]=b[n*(j*block_size+jj+1)+k*block_size +kk];
bb[2]=b[n*(j*block_size+jj+2)+k*block_size +kk];
bb[3]=b[n*(j*block_size+jj+3)+k*block_size +kk];
op_a = _mm256_loadu_pd (a+aoffset);
op_b= _mm256_loadu_pd (bb);
op_d = _mm256_mul_pd(op_a, op_b);
_mm256_storeu_pd (dd, op_d);
c[coffset]+=(dd[0]+dd[1]+dd[2]+dd[3]);
}
}
}
}
}
}
謝謝。
您可以使用以下版本的矩陣乘法(c [i,j] = a [i,k] * b [k,j])算法(標量版本):
for(int i = 0; i < i_size; ++i)
{
for(int j = 0; j < j_size; ++j)
c[i][j] = 0;
for(int k = 0; k < k_size; ++k)
{
double aa = a[i][k];
for(int j = 0; j < j_size; ++j)
c[i][j] += aa*b[k][j];
}
}
和向量化版本:
for(int i = 0; i < i_size; ++i)
{
for(int j = 0; j < j_size; j += 4)
_mm256_store_pd(c[i] + j, _mm256_setzero_pd());
for(int k = 0; k < k_size; ++k)
{
__m256d aa = _mm256_set1_pd(a[i][k]);
for(int j = 0; j < j_size; j += 4)
{
_mm256_store_pd(c[i] + j, _mm256_add_pd(_mm256_load_pd(c[i] + j), _mm256_mul_pd(aa, _mm256_load_pd(b[k] + j))));
}
}
}
“水平添加”是SSE指令集的最新版本,因此,如果要實現與許多不同處理器的兼容性,則不能使用加速版本。
但是,您絕對可以對添加的向量進行矢量化處理。 注意,內部循環僅影響單個coffset
。 您應該向外移動coffset
計算(編譯器將自動執行此操作,但如果這樣做,則代碼更具可讀性),並且在最里面的循環中使用四個累加器,每個coffset
僅執行一次水平coffset
。 即使使用向量水平加法,這也是一個改進,對於標量水平加法,它相當大。
就像是:
for(kk = 0; kk < block_size; kk++){
op_e = _mm256_setzero_pd();
for(jj = 0; jj < block_size ; jj+=4){
aoffset=n*(i*block_size+ii)+j*block_size +jj ;
boffset=n*(j*block_size+jj)+k*block_size +kk;
bb[0]=b[n*(j*block_size+jj)+k*block_size +kk];
bb[1]=b[n*(j*block_size+jj+1)+k*block_size +kk];
bb[2]=b[n*(j*block_size+jj+2)+k*block_size +kk];
bb[3]=b[n*(j*block_size+jj+3)+k*block_size +kk];
op_a = _mm256_loadu_pd (a+aoffset);
op_b= _mm256_loadu_pd (bb);
op_d = _mm256_mul_pd(op_a, op_b);
op_e = _mm256_add_pd(op_e, op_d);
}
_mm256_storeu_pd(dd, op_e);
coffset = n*(i*block_size+ii)+ k*block_size + kk;
c[coffset] = (dd[0]+dd[1]+dd[2]+dd[3]);
}
您也可以通過預先在b
上進行轉置來加快速度,而不是將矢量收集在最里面的循環內。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.