繁体 English 中英

根据支持的说明选择要使用的装配实现

[英]Choose assembly implementation to use based on supported instructions

原文 2018-11-28 02:19:35 4 2 c++/ c/ assembly/ static-libraries/ static-linking

我正在开发一个C库，它编译/链接到.a文件，用户可以静态链接到他们的代码。 库的性能非常重要，因此我在x86-64汇编中编写性能关键的例程来优化性能。

对于某些例程，如果使用BMI2指令，我可以获得明显更好的性能，而不是坚持使用“标准”x86-64指令集。 麻烦的是，BMI2最近刚推出，我的一些用户使用不支持这些指令的处理器。

所以，我写了两次优化例程，一次使用BMI2指令，一次不使用它们。 在我目前的设置中，我将分发两个版本的.a文件：一个需要支持BMI2指令的“快速”版本，以及一个不需要支持BMI2指令的“慢”版本。

我问是否有办法通过分发单个.a文件来简化这一过程，该文件将根据最终应用程序运行的CPU是否支持BMI2指令动态选择正确的实现。

与StackOverflow上的类似问题不同，这里有两个特点：

选择功能的技术需要在关键路径中具有特别低的开销。 在汇编优化之后，所讨论的例程在~10 ns内运行，因此即使单个if语句也可能很重要。
需要“动态”选择的功能在开始时选择一次，然后在程序的持续时间内保持固定。 我希望这将提供比这个问题中建议的更快的解决方案：在运行时选择方法实现

我到目前为止提出的最快解决方案是执行以下操作：

使用cpuid指令检查CPU是否支持BMI2指令。
根据结果设置全局变量true或false 。
在每个函数调用上对此全局变量的值进行分支。

我对这种方法不满意，因为它有两个缺点：

我不知道如何自动运行cpuid并在程序开头设置一个全局变量，因为我正在分发一个.a文件并且无法控制最终二进制文件中的main函数。 如果它提供了更好的解决方案，我很高兴在这里使用C ++，只要最终的库仍然可以与C程序链接和调用。
这会在每次函数调用时产生开销，理想情况下，唯一的开销是在程序启动时。

有没有比我上面详述的更有效的解决方案？

2 个解决方案

x264使用init函数（在调用其他任何东西之前需要调用库的用户，或类似的东西）来根据CPUID结果设置函数指针的结构。 包括考虑到pshufb在一些支持它的早期CPU上pshufb缓慢。

如果你的功能依赖于pdep / pext ，你可能想要检测AMD与英特尔，因为AMD的pdep / pext非常慢，并且可能不值得在Ryzen上使用，即使它可用。 （有关说明表，请参阅https://agner.org/optimize/ 。）

函数指针的开销相当低，与调用共享库或DLL中的函数大致相同。 call [rel funcptr]而不是call func 。 （在编译器生成的asm中调用您的函数）。

CPU依赖代码：如何避免函数指针？ 在C中展示了一个非常简单的例子，并且正在寻找避免它的方法。 通过动态链接，您可以在动态链接时进行CPU检测，因此动态链接间接也成为您的CPU调度间接（就像glibc选择优化的memcpy实现一样）。

但是对于.a静态链接，只需创建静态初始化为基线版本的函数指针，并且您的CPU初始化函数（希望在任何函数指针被解除引用之前运行）将其重写为指向最佳版本的当前的CPU。

如果您使用的是gcc，则可以让编译器自动实现所有样板代码。 关于函数多版本化的gcc手册页

在运行时选择要使用的CRTP实现

[英]Choose at runtime which CRTP implementation to use

操纵装配说明

[英]Manipulate Assembly Instructions

汇编指令的正则表达式

[英]Regular Expression For Assembly Instructions

如何选择基于C ++版本的函数实现

[英]How to choose function implementation based on C++ version

将内联汇编与序列化说明一起使用

[英]Using inline assembly with serialization instructions

在加载之前修改装配说明

[英]Modifying assembly instructions before loading

将汇编指令翻译成 C++

[英]Translate assembly instructions to c++

根据运行时值选择一个 constexpr 并在热循环中使用它

[英]choose a constexpr based on a runtime value and use it inside a hot loop

汇编指令中乘法的低位和高位是什么

[英]What is the Lower and the higher part of multiplication in assembly instructions

x86汇编指令优化

[英]x86 assembly instructions optimisation

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在运行时选择要使用的CRTP实现操纵装配说明汇编指令的正则表达式如何选择基于C ++版本的函数实现将内联汇编与序列化说明一起使用在加载之前修改装配说明将汇编指令翻译成 C++ 根据运行时值选择一个 constexpr 并在热循环中使用它汇编指令中乘法的低位和高位是什么 x86汇编指令优化

相关标签

根据支持的说明选择要使用的装配实现

问题描述

2 个解决方案

解决方案1
3 已采纳 2018-11-28 03:51:03

解决方案2
1 2018-12-27 14:19:29

根据支持的说明选择要使用的装配实现

问题描述

2 个解决方案

解决方案1 3 已采纳 2018-11-28 03:51:03

解决方案2 1 2018-12-27 14:19:29

解决方案1
3 已采纳 2018-11-28 03:51:03

解决方案2
1 2018-12-27 14:19:29