cost 383 ms
在 x86-SSE 中将四个压缩单精度浮点转换为无符号双字 - convertion of four packed single precision floating point to unsigned double words in x86-SSE

有没有办法在带有 SSE 扩展的 x86 中将四个打包的单精度浮点值转换为四个双字? 最接近的指令是CVTPS2PI ,但它不能在两个 xmm 寄存器上执行,而应作为CVTPS2PI MM, XMM/M64 。 如果我想要像<conversion_mnemonic> XMM, XMM/M ...

(Vec4 x Mat4x4)产品使用SIMD和改进 - (Vec4 x Mat4x4) product using SIMD and improvements

我正在编写一个复杂的仿真程序,它得出的结论是,最耗时的例程是将四个向量(float4)与4x4矩阵相乘的例程。 我需要在几台或多或少旧的计算机上运行该程序。 这就是为什么我尝试在以下代码中检查此类操作的SIMD功能: 我对这种问题的改进有些麻烦。 运行代码时,我得到以下结果(使用- ...

英特尔内部支持Atom cloverview处理器 - Intel intrinsics support for Atom cloverview processor

我有一个专为Sandbridge处理器设计的应用程序,使用SSE到AVX,现在我希望在Atom处理器上运行相同的应用程序。 我最近浏览网络以获得对Atom cloverview处理器的内在支持。 它提到的每个地方都支持SSE3。 但这意味着它只支持SSE3或SSE3中包含补充SSE ...

使用英特尔内在函数SSSE3的替代方案时,性能会下降 - Performance degrade while using alternative for Intel intrinsics SSSE3

我正在开发一个性能关键型应用程序,它必须移植到Intel Atom处理器,它只支持MMX,SSE,SSE2和SSE3。 我以前的应用程序支持SSSE3以及AVX,现在我想将它降级到Intel Atom处理器(MMX,SSE,SSE2,SSE3)。 当我用此代码替换ssse3指令,特别是_ ...

SIMD整数存储 - SIMD integer store

我正在使用SSE指令编写程序来乘法和相加整数值。 我使用浮点数执行相同的程序,但是我缺少整数版本的instruccion。 使用浮点数后,完成所有操作后,我将de值返回到常规的浮点数数组中,以执行以下操作: temp4是浮点数*,而temp3是__m128。 问题是我找不到 ...

如何启用SSSE3内在函数但禁用它们在编译器优化中的使用 - How to enable SSSE3 intrinsics but disable their use in compiler optimization

我有一个使用SSSE3内部命令的代码(注意三S)和运行时检查是否使用它,因此我假设应用程序应该在没有SSSE3支持的CPU上执行。 但是,当使用-mssse3和-O1优化时,编译器还会插入我没有明确调用的SSSE3指令,因此程序崩溃。 有什么方法可以在我明确调用相关的内部函数时启用SSS ...

使用SSE操作时内存访问冲突 - Memory Access Violations When Using SSE Operations

我一直在尝试重新实现一些现有的向量和矩阵类来使用SSE3命令,每当我对向量数组执行一系列操作时,我似乎遇到了这些“内存访问冲突”错误。 我对SSE比较陌生,所以我一开始就很简单。 这是我的矢量类的全部内容: 所以,还没有进行很多,只有一些构造函数,访问器和一个操作。 使用我(无可否 ...

在ASM SSSE3代码存在的情况下,是否应该使用-mssse3进行编译? - Should I compile with -mssse3 in the presence of ASM SSSE3 code?

我有一个关于在GCC上编译x264版本的问题。 x264具有用于处理指令集(例如SSE3和SSSE3)的汇编代码,默认情况下,makefile中禁用了自动矢量化。 我是否仍应使用-mssse3标志对其进行编译,否则可能会导致性能损失? -mssse3隐含-msse3还是SSE3 ...

无溢出的无符号字节总和减少,在 Intel 上使用 SSE2 - Sum reduction of unsigned bytes without overflow, using SSE2 on Intel

我试图在 Intel i3 处理器上找到 32 个元素(每个 1 字节数据)的总和减少。 我这样做了: 但是,它需要更多时间,因为我的应用程序是一个需要更少时间的实时应用程序。 请注意,最终总和可能会超过 255。 有没有办法可以使用低级 SIMD SSE2 指令来实现这一点? 不幸的是,我从 ...

未启用SSE指令集 - SSE instruction set not enabled

我遇到这个错误的问题: “未启用SSE指令集” 。 我怎么能搞清楚这一点? 我有ACER i7,Ubuntu 11.10,请任何人可以帮帮我吗? 任何帮助将不胜感激! 还运行: sudo cat /proc/cpuinfo | grep flags 得到: fl ...

真正的基本SSE - Really basic SSE

我有一个非常简单的程序,试图提高性能。 我知道会有所帮助的一种方法是利用SSE3(因为我正在使用的计算机支持此功能),但是我绝对不知道如何执行此操作。 这是一个代码片段(c ++): 我已经阅读了一些,并理解了这个想法,但是我完全不知道如何实现这一点。 有人可以帮我吗? 我认为这 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM