繁体   English   中英

如何将32位浮点数转换为8位有符号字符?

[英]How to convert 32-bit float to 8-bit signed char?

我想做的是:

  1. 将输入浮点数乘以固定因子。
  2. 将它们转换为8位有符号字符。

请注意,大多数输入具有较小的绝对值范围,如[-6,6],因此固定因子可以将它们映射到[-127,127]。

我只使用avx2指令集,所以不能使用像_mm256_cvtepi32_epi8这样的内在函数。 我想使用_mm256_packs_epi16但它将两个输入混合在一起。 :(

我还编写了一些将32位浮点数转换为16位int的代码,它正如我想要的那样工作。

void Quantize(const float* input, __m256i* output, float quant_mult, int num_rows, int width) {
  // input is a matrix actuaaly, num_rows and width represent the number of rows and columns of the matrix
  assert(width % 16 == 0);

  int num_input_chunks = width / 16;

  __m256 avx2_quant_mult = _mm256_set_ps(quant_mult, quant_mult, quant_mult, quant_mult,
                                     quant_mult, quant_mult, quant_mult, quant_mult);

  for (int i = 0; i < num_rows; ++i) {
    const float* input_row = input + i * width;
    __m256i* output_row = output + i * num_input_chunks;
    for (int j = 0; j < num_input_chunks; ++j) {
      const float* x = input_row + j * 16;
      // Process 16 floats at once, since each __m256i can contain 16 16-bit integers.

      __m256 f_0 = _mm256_loadu_ps(x);
      __m256 f_1 = _mm256_loadu_ps(x + 8);

      __m256 m_0 = _mm256_mul_ps(f_0, avx2_quant_mult);
      __m256 m_1 = _mm256_mul_ps(f_1, avx2_quant_mult);

      __m256i i_0 = _mm256_cvtps_epi32(m_0);
      __m256i i_1 = _mm256_cvtps_epi32(m_1);

      *(output_row + j) = _mm256_packs_epi32(i_0, i_1);
    }
  }
}

欢迎任何帮助,非常感谢你!

为了获得具有多个源向量的良好吞吐量, _mm256_packs_epi16具有2个输入向量而不是产生更窄的输出是一件好事 (AVX512 _mm256_cvtepi32_epi8不一定是最有效的方法,因为具有内存目标的版本会解码为多个uop,或者常规版本会为您提供需要单独存储的多个小输出。)

或者你在抱怨它是如何在车道上运作的? 是的,这很烦人,但_mm256_packs_epi32做同样的事情。 如果输出在那里有交错的数据组,那么也要做同样的事情。

你最好的办法就是将4个向量组合成1个,分为2个步道的包装(因为没有交叉包装)。 然后使用一个车道交叉shuffle来修复它。

#include <immintrin.h>
// loads 128 bytes = 32 floats
// converts and packs with signed saturation to 32 int8_t
__m256i pack_float_int8(const float*p) {
    __m256i a = _mm256_cvtps_epi32(_mm256_loadu_ps(p));
    __m256i b = _mm256_cvtps_epi32(_mm256_loadu_ps(p+8));
    __m256i c = _mm256_cvtps_epi32(_mm256_loadu_ps(p+16));
    __m256i d = _mm256_cvtps_epi32(_mm256_loadu_ps(p+24));
    __m256i ab = _mm256_packs_epi32(a,b);        // 16x int16_t
    __m256i cd = _mm256_packs_epi32(c,d);
    __m256i abcd = _mm256_packs_epi16(ab, cd);   // 32x int8_t
    // packed to one vector, but in [ a_lo, b_lo, c_lo, d_lo | a_hi, b_hi, c_hi, d_hi ] order
    // if you can deal with that in-memory format (e.g. for later in-lane unpack), great, you're done

    // but if you need sequential order, then vpermd:
    __m256i lanefix = _mm256_permutevar8x32_epi32(abcd, _mm256_setr_epi32(0,4, 1,5, 2,6, 3,7));
    return lanefix;
}

在Godbolt编译器资源管理器上很好地编译 )。

在循环中调用它,并在结果向量中使用_mm256_store_si256


对于uint8_t无符号目的地 ,使用_mm256_packus_epi16进行16-> 8步骤并保持其他所有内容相同。我们仍然使用带符号的32-> 16打包,因为16 - > u8 vpackuswb打包仍然将其epi16 输入作为签名。您需要-1被视为-1 ,而不是+0xFFFF ,对于无符号饱和,将其钳制为0。)


每个256位存储共有4次shuffle,每次吞吐量1次shuffle将成为Intel CPU的瓶颈。 每个时钟应该获得一个浮点向量的吞吐量,在端口5上出现瓶颈 https://agner.org/optimize/ )。 如果数据在L2中不热,或者可能会在内存带宽上出现瓶颈。


如果你只有一个矢量做,你可以考虑使用_mm256_shuffle_epi8把每个epi32元素的低字节到每个通道的低32位,然后_mm256_permutevar8x32_epi32车道交叉。

另一个单矢量替代品(Ryzen上的好)是extracti128 + 128位packssdw + packsswb。 但是,如果你只做一个向量,那仍然是好的。 (仍然在Ryzen上,你会想要在128位向量中工作,以避免额外的跨越通道的混乱,因为Ryzen将每个256位指令分成(至少)2个128位uops。)

有关:

请检查IEEE754标准格式以存储浮点值,首先要了解这个float和double如何在内存中存储,然后你才知道如何将float或double转换为char,这很简单。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM