cost 99 ms
_mm_movemask_epi8 的內在逆

[英]Intrinsic inverse to _mm_movemask_epi8

所以首先我將描述這個任務: 我需要: 比較兩個__m128i 。 以某種方式對具有某個uint16_t值的結果進行按位和運算(可能先使用_mm_movemask_epi8 ,然后再使用& )。 根據結果blend初始值。 所以問題是你可能已經猜到了 blend 接受__m ...

為什么_mm_insert_ps的偽代碼計算的是%8?

[英]Why does the pseudocode of _mm_insert_ps calculate %8?

在 intel 內在函數指南中, _mm_insert_ps操作的偽代碼定義如下: . 對imm8的訪問讓我感到困惑: IF imm8[j%8] 。 由於j在0..3范圍內,模 8 部分似乎沒有做任何事情。 這是否可能表示我不知道的轉換? 或者在這種情況下%不是“模”? ...

有沒有辦法將整數轉換為字節,知道整數在字節范圍內。 使用 SSE?

[英]Is there way to cast integers to bytes, knowing ints are in range of bytes. Using SSE?

嘿,我在 xmm 寄存器中有 3 個整數,最大值為 255。 我想將它們轉換為字節,並將它們保存到 memory。 我不知道如何處理它。 我正在考慮從 xmm1 寄存器中獲取這些數字並將它們保存到簡單的 eax 寄存器中,然后將最低字節移動到 memory,但我不確定如何從 xmm 寄存器中獲取整 ...

使用 SSE4.2 或更早版本優化 find_first_not_of

[英]Optimizing find_first_not_of with SSE4.2 or earlier

我正在為協議編寫文本數據包分析器,並在優化它時發現一個很大的瓶頸是find_first_not_of調用。 本質上,如果一個數據包只包含有效字符,我需要查找它是否有效,比默認的 C++ function 更快。 例如,如果所有允許的字符都是f 、 h 、 o 、 t和w ,在 C++ 中我只會調用 ...

未定義的 intel_sse4_strlen

[英]Undefined intel_sse4_strlen

我遇到了一個問題。 在我編譯我的程序沒有問題之后,我運行它並得到一個我無法弄清楚的錯誤: 我做了“nm -u 64rm | grep intel”並得到以下信息: 對於在文本部分中定義的這些 API,我該如何編譯或該怎么做,如下所示: 謝謝您的幫助。 ...

SSE4.1 無符號 integer 比較與溢出

[英]SSE4.1 unsigned integer comparison with overflow

考慮到 16 位無符號加法( _mm_add_epi16() )是否會溢出,有什么方法可以使用 SSE2/4.1 指令執行類似 C >= (A + B) 的比較? 代碼片段看起來像 - 問題是當 16 位加法溢出(回繞)時,大於比較會導致誤報。 我不能出於我的目的使用飽和添加。 我在這里查看了 ...

如何在 sse2 上模擬 pcmpgtq?

[英]How to simulate pcmpgtq on sse2?

PCMPGTQ 是在 sse4.2 中引入的,它為產生掩碼的 64 位數字提供大於符號的比較。 在 sse4.2 之前的指令集上如何支持此功能? 更新:同樣的問題適用於帶有 Neon 的 ARMv7,它也缺少 64 位比較器。 在這里可以找到與此相關的姊妹問題: 在 ARMv7a 與 Neon ...

如何在 MSVC 中啟用 SSE4.1 和 SSE3(但不是 AVX)

[英]How do I enable SSE4.1 and SSE3 (but NOT AVX) in MSVC

我正在嘗試使用 MSVC 啟用不同的 simd 支持。 有一個頁面在談論啟用一些 simd,例如 SSE2、AVX、AVX2 https://docs.microsoft.com/en-us/cpp/build/reference/arch-x86?redirectedfrom=MSDN &amp ...

將數據從內存(可以是任意長度)移動到 XMM

[英]Move data from memory(could be of any length) to XMM

我對匯編(NASM)知之甚少,我想使用 SSE4.2 執行字符串操作(是否存在子字符串)。 所以我了解了 PCMPESTRI、PCMPISTRM 的工作原理。 我被困在中間,即數據從內存傳輸到 xmm 寄存器。 基本上,我想通過命令行(例如:./a.out ABCD)獲取輸入並傳輸到 xmm1 寄存 ...

_mm_cmpgt_epi64內部函數如何工作

[英]How does the _mm_cmpgt_epi64 intrinsic work

我正在使用_mm_cmpgt_epi64內在函數來實現128位加法,后來又實現了256位加法。 看着這種內在的結果,有些讓我感到困惑。 我不明白為什么計算的蒙版是這樣。 這是我的調試器中的輸出: 對於第一個64位通道( 63:0 ),我很好。 但是,為什么第二條車道( ...

如何更改 VirtualBox 為客戶操作系統模擬的 CPU 指令集,例如禁用 SSE4.2 指令集?

[英]How to change the CPU instruction set which VirtualBox emulated for guest OS, like disabling SSE4.2 instruction set?

我想要實現的是禁用 VirtualBox 為調試目的為我的 Linux 來賓操作系統模擬的 CPU 的 SSE4.2 指令集,即使真正的 CPU 支持 VirtualBox 所基於的 SSE4.2 指令集。 我參考了 VirtualBox 手冊頁,有幾個命令可能與此問題相關: 上面的命令不起作用。 ...

支持SSE4的處理器是否支持SSSE3指令?

[英]Does a processor that supports SSE4 support SSSE3 instructions?

我正在開發一個需要SSSE3指令集的硬件平台。 在查看IntelAtom®x5-Z8350等處理器時, 數據表顯示它支持SSE4.1和SSE4.2。 這是否允許為SSSE3指令編寫的軟件運行? 我相信這個問題與這個問題略有不同,因為它從未明確表示SSE4是SSSE3的超集。 它只說A ...

制作可編譯Tensorflow二進制文件以使用的Dockerfile:SSE4.1,SSE4.2和AVX指令

[英]Make a Dockerfile that compiles a Tensorflow binary to use: SSE4.1, SSE4.2 and AVX instructions

因此,泊塢窗的目的之一就是輕松部署環境來測試軟件,對嗎? 有人可以告訴我如何在docker文件上編譯Tensorflow二進制文件以使用:SSE4.1,SSE4.2嗎? 誰能指出我這樣做的碼頭工人文件? 是否有可能? 總之,有兩個問題: 是否可以使用一個編譯Tensorfl ...

對於memcmp,SSE4.2字符串指令比SSE2快多少?

[英]How much faster are SSE4.2 string instructions than SSE2 for memcmp?

這是我的代碼匯編程序 你能用c ++嵌入它並檢查SSE4嗎? 速度快 我非常希望看到如何進入SSE4的發展。 或者根本不擔心他? 我們檢查一下(我沒有SSSE3以上的支持) Semple 32bit https://vk.com/doc297044195_4516794 ...

為多個SIMD架構生成代碼

[英]Generate code for multiple SIMD architectures

我編寫了一個庫,我使用CMake來驗證MMX,SSE,SSE2,SSE4,AVX,AVX2和AVX-512的標頭是否存在。 除此之外,我檢查是否存在指令,如果存在,我添加必要的編譯器標志,-msse2 -mavx -mfma等。 這一切都非常好,但我想部署一個二進制文件,它適用於各代處理 ...

內置 pcmpistri 在 gcc 中不起作用

[英]builtin pcmpistri not working in gcc

我正在嘗試編寫一個strcmp版本,該版本利用利用 GCC 內在函數的 SSE4.2 新指令。 這是我到目前為止的代碼: #include <stdio.h> #include <smmintrin.h> int main(int argc, char const *ar ...

在Windows 10上從Sources安裝TensorFlow

[英]Installing TensorFlow from Sources, on windows 10

我已經安裝了tensorflow-gpu,它工作正常。 我現在想從源代碼安裝tensorflow-gpu以利用AVX和SSE4.2-1.0指令集,給出我的系統配置如下; CPU:雙Intel Xeon E5 2670,Sandy Bridge-EP / EX,修訂版C2,指令MM ...

PTEST可以用來測試兩個寄存器是否均為零或其他情況嗎?

[英]Can PTEST be used to test if two registers are both zero or some other condition?

除了測試單個寄存器是否為全零之外,您還可以使用SSE4.1 ptest做什么? 您可以結合使用SF和CF來測試關於兩個未知輸入寄存器的任何有用信息嗎? PTEST有什么用? 您可能會認為這對於檢查打包比較的結果(例如PCMPEQD或CMPPS)會很好,但是至少在Intel CPU上 ...

使用帶有小模式的SSE4.2指令PCMPESTRM

[英]Using SSE4.2 instruction PCMPESTRM with small patterns

我試圖在用C ++編碼的字符串匹配算法中使用一些SSE4.2指令。 我不明白如何使用這些指令來匹配較小的模式,並希望有人可以幫助我解決這個問題。 在代碼示例中,我試圖在打包的字符串“我是羚羊”中找到模式“ ant”。 我希望結果是將掩碼設置為全零,但索引8處的值為1。 現在這 ...

可以跳過每2個字節的SSE mov指令?

[英]SSE mov instruction that can skip every 2nd byte?

我需要將所有奇數字節從一個存儲位置復制到另一個存儲位置。 即復制第一,第三,第五等。具體來說,我是從包含2000個字符/屬性詞的文本區域0xB8000復制。 我想跳過屬性字節,僅以字符結尾。 以下代碼可以正常工作: 要復制的數字或字符的范圍是1到2000。我最近開始使用sse2,s ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM