繁体   English   中英

向量中的本征霓虹灯交换元素

[英]Intrinsics Neon Swap elements in vector

我想使用Neon Intrinsics优化此类代码。 基本上给定输入

0 1 2 3 4 5 6 7 8

将产生输出,

2 1 0 5 4 3 8 7 6

void func(uint8_t* src, uint8_t* dst, int size){

   for (int i = 0; i < size; i++){
     dst[0] = src[2];
     dst[1] = src[1];
     dst[2] = src[0]
     dst = dst+3;
     src = src+3;
   }           
}

我能想到的唯一方法是使用

uint8x8x3_t src = vld3_u8(src);

获取3个向量,然后从src [2],src [1],src [0]访问每个元素并写入内存。

有人可以帮忙吗?

谢谢。

这在底层指令集中非常简单,因为您要交换3元素结构的两个元素,实际上已经阐明了相关的指令:

vld3.u8 {d0-d2}, [r0]
vswp d0, d2
vst3.u8 {d0-d2}, [r0]

NEON程序员指南》中甚至有这个确切的示例,因为它是RGB-BGR转换,而这恰恰是NEON设计的处理类型。

使用内在函数有点麻烦,因为vswp没有内在vswp 您只需要用C表示它并相信编译器就可以做正确的事情:

uint8x8x3_t data = vld3_u8(src);
uint8x8_t tmp = data.val[0];
data.val[0] = data.val[2];
data.val[2] = tmp;
vst3_u8(dest, data);

就是说,由于要交付的编译器是GCC的各种版本,我无法说服它们中的任何一个实际发出vswp -代码生成范围从次优到vswp Clang的性能要好很多,但仍然没有vswp 其他编译器可能更聪明。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM