AArch64 SVE/2 - 列表中的左包元素

Question

我正在嘗試使用 AArch64 SVE （或SVE2 ）實現 SIMD 算法，該算法采用元素列表並僅選擇滿足特定條件的元素。 它通常稱為左包裝 ( SSE/AVX/AVX-512 )，還是 Stream 壓實 ( CUDA )？

是否可以使用 SVE 對該操作進行矢量化？

等效的 SQL 和標量代碼可能如下所示：

SELECT * FROM Book
WHERE Price < 42

int LeftPack_Scalar(int* input, int* output, int N, int limit)
{
    int outPos = 0;
    for (int i = 0; i < N; ++i) {
       if (input[i] < limit)
          out[outPos++] = input[i];
    }
    return outPos;
}

可以使用 AVX-512 在 SIMD 中對其進行矢量化

int LeftPack_AVX512(int* input, int* output, int N, int limit)
{
    int outPos = 0;
    __m512i vlimit = mm512_load(limit);
    for (int i=0; i < N; i+=16) {
       __m512i vinput = mm512_load(input+i); 
       __mmask16 mask = mm512_cmp(vinput, vlimit); 
       mm512_mask_compressstore(output+outPos, mask, vinput);
       int count = mm512_popcnt(mask);
       outPos += count;
    }
    return outPos;
}

如何使用 AArch64 SVE 實現它？ 有沒有類似於 AVX-512 compress_store的 function 來壓縮稀疏數據？

int LeftPack_SVE(int* input, int* output, int N, int limit)
{
  // ...
}

注意：SVE 既有collect也有scatter ，詳情請參閱SVE 的簡短介紹。 但我找不到等效的 SVE / 2 指令來保持元素的相對順序。

Answer 1

使用svcompact壓縮活動元素，然后使用普通線性存儲來存儲結果。

AArch64 SVE/2 - 列表中的左包元素

問題描述

1 個解決方案

解決方案1
1 已采納 2021-05-13 13:05:49

AArch64 SVE/2 - 列表中的左包元素

問題描述

1 個解決方案

解決方案1 1 已采納 2021-05-13 13:05:49

解決方案1
1 已采納 2021-05-13 13:05:49