如何使用SSE将_m128i转换为unsigned int？

Question

我已经制作了一个用于分色图像的功能。

// =(
#define ARGB_COLOR(a, r, g, b) (((a) << 24) | ((r) << 16) | ((g) << 8) | (b))

inline UINT PosterizeColor(const UINT &color, const float &nColors)
{
    __m128 clr = _mm_cvtepi32_ps(  _mm_cvtepu8_epi32((__m128i&)color)  );

    clr = _mm_mul_ps(clr,  _mm_set_ps1(nColors / 255.0f)  );
    clr = _mm_round_ps(clr, _MM_FROUND_TO_NEAREST_INT);
    clr = _mm_mul_ps(clr, _mm_set_ps1(255.0f / nColors)  );

    __m128i iClr = _mm_cvttps_epi32(clr);

    return ARGB_COLOR(iClr.m128i_u8[12],
                      iClr.m128i_u8[8],
                      iClr.m128i_u8[4],
                      iClr.m128i_u8[0]);
}

在第一行，我将颜色打包成4个浮点数，但我找不到正确的反向方法。

我搜索了SSE文档，找不到_mm_cvtepu8_epi32的反向

一个存在吗？

Answer 1

您需要_mm_shuffle_epi8和_mm_cvtsi128_si32组合：

static const __m128i shuffleMask = _mm_setr_epi8(0,  4,  8, 12, -1, -1, -1, -1,
                                               -1, -1, -1, -1, -1, -1, -1, -1);
UINT color = _mm_cvtsi128_si32(_mm_shuffle_epi8(iClr, shuffleMask));

Answer 2

不幸的是，即使在AVX中也没有指令可以做到这一点（我没有意识到）。 所以你必须像现在一样手动完成。

但是，您当前的方法非常不理想，并且您依赖的是.m128i_u8 ，它是MSVC扩展。 根据我对MSVC的经验，它将使用对齐的缓冲区来访问各个元素。 由于部分词语访问，这会受到非常严重的惩罚。

而不是.m128i_u8 ，使用_mm_extract_epi32() 。 这是在SSE4.1中。 但是你已经使用_mm_cvtepu8_epi32()依赖SSE4.1了。

由于您使用的是1字节粒度，因此这种情况特别糟糕。 如果您使用的是2字节（16位整数）粒度，则可以使用shuffle内在函数进行有效的解决方案。

如何使用SSE将_m128i转换为unsigned int？

问题描述

2 个解决方案

解决方案1
8 2011-12-29 00:14:53

解决方案2
5 已采纳 2011-12-22 03:07:43

如何使用SSE将_m128i转换为unsigned int？

问题描述

2 个解决方案

解决方案1 8 2011-12-29 00:14:53

解决方案2 5 已采纳 2011-12-22 03:07:43

解决方案1
8 2011-12-29 00:14:53

解决方案2
5 已采纳 2011-12-22 03:07:43