簡體 English 中英

在 intel 內部函數 (AVX) 中使用混合指令

[英]Using the blend instructions in intel intrinsics (AVX)

原文 2020-05-21 02:07:29 7 1 c++/ c/ intrinsics/ avx/ immediate-operand

我有一個關於 AVX _mm256_blend_pd function 的問題。

我想優化我大量使用_mm256_blendv_pd function 的代碼。 不幸的是，這具有相當高的延遲和低吞吐量。 此 function 將三個__m256d變量作為輸入，其中最后一個表示用於前 2 個變量中 select 的掩碼。

我發現了另一個 function ( _mm256_blend_pd )，它采用位掩碼而不是__m256d變量作為掩碼。 當掩碼為 static 時，我可以簡單地傳遞0b0111之類的內容來獲取第一個變量的第一個元素和第二個變量的最后 3 個元素。 但是在我的情況下，掩碼是使用_mm_cmp_pd function 計算的，它返回一個__m256d變量。 我發現我可以使用_mm256_movemask_pd從掩碼返回一個 int ，但是當將它傳遞給 function _mm256_blend_pd時，我收到一個錯誤error: the last argument must be a 4-bit immediate 。

有沒有辦法通過這個 integer 使用它的前 4 位？ 或者是否還有另一個類似於 movemask 的 function 可以讓我使用_mm256_blend_pd ？ 或者我可以使用另一種方法來避免使用對這個用例更有效的 cmp、movemask 和 blend 嗎？

1 個解決方案

_mm256_blend_pd是vblendpd的內在函數，它將其控制操作數作為立即常數，嵌入到指令的機器代碼中。 （這就是匯編/機器代碼術語中“立即”的含義。）

在 C++ 術語中，控制 arg 必須是constexpr ，以便編譯器可以在編譯時將其嵌入到指令中。 您不能將它用於運行時變量混合。

不幸的是，像vblendvpd這樣的可變混合指令速度較慢，但它們在 Skylake 上“只有”2 個微指令，具有 1 或 2 個周期延遲（取決於您測量關鍵路徑所通過的輸入）。 ( uops.info )。 在 Skylake 上，這些微指令可以在 3 個矢量 ALU 端口中的任何一個上運行。 （不過，在 Haswell/Broadwell 上更糟糕，僅限於端口 5，通過隨機播放來爭奪它）。 Zen 甚至可以將它們作為單個 uop 運行。

在 AVX512 使屏蔽成為您可以作為其他指令的一部分執行的一流操作並為我們提供單微指令混合指令（如vblendmpd ymm0{k1}, ymm1, ymm2 （根據屏蔽寄存器混合）。

在某些特殊情況下，您可以有用地_mm256_and_pd有條件地置零而不是混合，例如，在add之前將輸入歸零而不是在之后混合。

TL:DR: _mm256_blend_pd允許您在控件是編譯時常量的特殊情況下使用更快的指令。

英特爾匯編與內部函數，AVX

[英]Intel assembly vs Intrinsics, AVX

強制AVX內在函數使用SSE指令

[英]Forcing AVX intrinsics to use SSE instructions instead

英特爾AVX內在函數：任何兼容性庫？

[英]Intel AVX intrinsics: any compatibility library out?

未知類型名稱 __m256 - 無法識別 AVX 的英特爾內在函數？

[英]Unknown type name __m256 - Intel intrinsics for AVX not recognized?

在 Intel x86 架構上使用非 AVX 指令移位 xmm 整數寄存器值

[英]Shifiting xmm integer register values using non-AVX instructions on Intel x86 architecture

使用 SSE/AVX 內在函數的快速點積

[英]Fast dot product using SSE/AVX intrinsics

通過內部函數或指令手動控制Intel MIC SIMD操作

[英]Manually control Intel MIC SIMD operations by intrinsics or instructions

使用 AVX CPU 指令：沒有“/arch:AVX”的性能不佳

[英]Using AVX CPU instructions: Poor performance without “/arch:AVX”

std :: AVX內部函數數組

[英]std::array of AVX intrinsics

SSE和AVX內在混合物

[英]SSE and AVX intrinsics mixture

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 英特爾匯編與內部函數，AVX 強制AVX內在函數使用SSE指令英特爾AVX內在函數：任何兼容性庫？未知類型名稱 __m256 - 無法識別 AVX 的英特爾內在函數？在 Intel x86 架構上使用非 AVX 指令移位 xmm 整數寄存器值使用 SSE/AVX 內在函數的快速點積通過內部函數或指令手動控制Intel MIC SIMD操作使用 AVX CPU 指令：沒有“/arch:AVX”的性能不佳 std :: AVX內部函數數組 SSE和AVX內在混合物

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM