繁体 English 中英

在 intel 内部函数 (AVX) 中使用混合指令

[英]Using the blend instructions in intel intrinsics (AVX)

原文 2020-05-21 02:07:29 0 1 c++/ c/ intrinsics/ avx/ immediate-operand

我有一个关于 AVX _mm256_blend_pd function 的问题。

我想优化我大量使用_mm256_blendv_pd function 的代码。 不幸的是，这具有相当高的延迟和低吞吐量。 此 function 将三个__m256d变量作为输入，其中最后一个表示用于前 2 个变量中 select 的掩码。

我发现了另一个 function ( _mm256_blend_pd )，它采用位掩码而不是__m256d变量作为掩码。 当掩码为 static 时，我可以简单地传递0b0111之类的内容来获取第一个变量的第一个元素和第二个变量的最后 3 个元素。 但是在我的情况下，掩码是使用_mm_cmp_pd function 计算的，它返回一个__m256d变量。 我发现我可以使用_mm256_movemask_pd从掩码返回一个 int ，但是当将它传递给 function _mm256_blend_pd时，我收到一个错误error: the last argument must be a 4-bit immediate 。

有没有办法通过这个 integer 使用它的前 4 位？ 或者是否还有另一个类似于 movemask 的 function 可以让我使用_mm256_blend_pd ？ 或者我可以使用另一种方法来避免使用对这个用例更有效的 cmp、movemask 和 blend 吗？

1 个解决方案

_mm256_blend_pd是vblendpd的内在函数，它将其控制操作数作为立即常数，嵌入到指令的机器代码中。 （这就是汇编/机器代码术语中“立即”的含义。）

在 C++ 术语中，控制 arg 必须是constexpr ，以便编译器可以在编译时将其嵌入到指令中。 您不能将它用于运行时变量混合。

不幸的是，像vblendvpd这样的可变混合指令速度较慢，但它们在 Skylake 上“只有”2 个微指令，具有 1 或 2 个周期延迟（取决于您测量关键路径所通过的输入）。 ( uops.info )。 在 Skylake 上，这些微指令可以在 3 个矢量 ALU 端口中的任何一个上运行。 （不过，在 Haswell/Broadwell 上更糟糕，仅限于端口 5，通过随机播放来争夺它）。 Zen 甚至可以将它们作为单个 uop 运行。

在 AVX512 使屏蔽成为您可以作为其他指令的一部分执行的一流操作并为我们提供单微指令混合指令（如vblendmpd ymm0{k1}, ymm1, ymm2 （根据屏蔽寄存器混合）。

在某些特殊情况下，您可以有用地_mm256_and_pd有条件地置零而不是混合，例如，在add之前将输入归零而不是在之后混合。

TL:DR: _mm256_blend_pd允许您在控件是编译时常量的特殊情况下使用更快的指令。

英特尔汇编与内部函数，AVX

[英]Intel assembly vs Intrinsics, AVX

强制AVX内在函数使用SSE指令

[英]Forcing AVX intrinsics to use SSE instructions instead

英特尔AVX内在函数：任何兼容性库？

[英]Intel AVX intrinsics: any compatibility library out?

未知类型名称 __m256 - 无法识别 AVX 的英特尔内在函数？

[英]Unknown type name __m256 - Intel intrinsics for AVX not recognized?

在 Intel x86 架构上使用非 AVX 指令移位 xmm 整数寄存器值

[英]Shifiting xmm integer register values using non-AVX instructions on Intel x86 architecture

使用 SSE/AVX 内在函数的快速点积

[英]Fast dot product using SSE/AVX intrinsics

通过内部函数或指令手动控制Intel MIC SIMD操作

[英]Manually control Intel MIC SIMD operations by intrinsics or instructions

使用 AVX CPU 指令：没有“/arch:AVX”的性能不佳

[英]Using AVX CPU instructions: Poor performance without “/arch:AVX”

std :: AVX内部函数数组

[英]std::array of AVX intrinsics

SSE和AVX内在混合物

[英]SSE and AVX intrinsics mixture

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 英特尔汇编与内部函数，AVX 强制AVX内在函数使用SSE指令英特尔AVX内在函数：任何兼容性库？未知类型名称 __m256 - 无法识别 AVX 的英特尔内在函数？在 Intel x86 架构上使用非 AVX 指令移位 xmm 整数寄存器值使用 SSE/AVX 内在函数的快速点积通过内部函数或指令手动控制Intel MIC SIMD操作使用 AVX CPU 指令：没有“/arch:AVX”的性能不佳 std :: AVX内部函数数组 SSE和AVX内在混合物

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM