為什么kiss_fft 的正向和反向radix-4 計算不同，第2 部分？

Question

Kiss_fft 代碼在循環中有這個分支：

do {
    if(st->inverse) {
        Fout[m].r = scratch[5].r - scratch[4].i;
        Fout[m].i = scratch[5].i + scratch[4].r;
        Fout[m3].r = scratch[5].r + scratch[4].i;
        Fout[m3].i = scratch[5].i - scratch[4].r;
    }else{
        Fout[m].r = scratch[5].r + scratch[4].i;
        Fout[m].i = scratch[5].i - scratch[4].r;
        Fout[m3].r = scratch[5].r - scratch[4].i;
        Fout[m3].i = scratch[5].i + scratch[4].r;
    }
    ++Fout;
} while (--k); // Fout[] has k*4 elements.

稍微重新排序：

if(st->inverse) {
    Fout[m].r = scratch[5].r - scratch[4].i;
    Fout[m].i = scratch[5].i + scratch[4].r;
    Fout[m3].r = scratch[5].r + scratch[4].i;
    Fout[m3].i = scratch[5].i - scratch[4].r;
}else{
    Fout[m3].r = scratch[5].r - scratch[4].i;
    Fout[m3].i = scratch[5].i + scratch[4].r
    Fout[m].r = scratch[5].r + scratch[4].i;
    Fout[m].i = scratch[5].i - scratch[4].r;;
}

這兩個代碼塊的真正區別僅在於它們對m和m3 。 但是m和m3在循環內沒有改變。 我可以通過交換m和m3簡單地消除這個內循環分支嗎？

if(st->inverse) { swap(&m, &m3); }
do {
    Fout[m].r = scratch[5].r - scratch[4].i;
    Fout[m].i = scratch[5].i + scratch[4].r;
    Fout[m3].r = scratch[5].r + scratch[4].i;
    Fout[m3].i = scratch[5].i - scratch[4].r;
   ++Fout;
} while (--k);

Answer 1

我確實可以使用這種優化。 但是，對於可以使用 AVX 的當前一代編譯器，這不是必需的。 他們也會使用vpcmpeqd和vblendvps消除該分支。

為什么kiss_fft 的正向和反向radix-4 計算不同，第2 部分？

問題描述

1 個解決方案

解決方案1
0 2021-12-23 18:04:30

為什么kiss_fft 的正向和反向radix-4 計算不同，第2 部分？

問題描述

1 個解決方案

解決方案1 0 2021-12-23 18:04:30

解決方案1
0 2021-12-23 18:04:30