[英]How do the C++ STL (ExecutionPolicy) algorithms determine how many parallel threads to use?
C++17 通过使用可选的 ExecutionPolicy 参数(作为第一个参数)升级了 69 个 STL 算法以支持并行性。 例如。
std::sort(std::execution::par, begin(v), end(v));
我怀疑 C++17 标准故意没有说明如何实现多线程算法,让库作者决定什么是最好的(并允许他们稍后改变主意)。 尽管如此,我还是很想从高层次上了解在并行 STL 算法的实现中正在考虑哪些问题。
我想到的一些问题包括(但不限于!):
我意识到这些并行算法的重点是让程序员不必担心这些细节。 但是,任何能让我对库调用内部发生的事情有一个高层次的心理图景的信息都将不胜感激。
这些问题中的大多数都无法用今天的标准来回答。 但是,据我了解,您的问题混合了两个概念:
C1。 对并行算法的限制
C2. 算法的执行
所有的C ++ 17平行STL的是约C1:它设置关于如何指令和/或线程可以被交织/转化的并行计算的约束。 另一方面,C2 是关于标准化的,关键字是executor
(稍后会详细介绍)。
对于 C1,有 3 个标准策略(在std::execution::seq
、 par
和par_unseq
)对应于任务和指令并行的每个组合。 例如,在执行整数累加时,可以使用par_unseq
,因为顺序并不重要。 但是,对于浮点运算,其中除了不关联,更适合将seq
来,至少得到一个确定的结果。 简而言之:策略对并行计算设置了约束,而这些约束可能会被智能编译器利用。
另一方面,一旦你有了一个并行算法及其约束(可能在一些优化/转换之后), executor
就会找到执行它的方法。 有默认执行程序(例如 CPU),或者您可以创建自己的执行程序,然后,可以设置有关线程数量、工作负载、处理单元等的所有配置。
截至今天,C1 在标准中,但不在 C2 中,因此如果您将 C1 与兼容的编译器一起使用,您将无法指定所需的执行配置文件,并且库实现将为您决定(可能通过扩展)。
因此,要解决您的问题:
(关于您的前 5 个问题)根据定义,C++17 并行 STL 库不定义任何计算,仅定义数据依赖性,以允许可能的数据流转换。 所有这些问题都将由executor
回答(希望如此),您可以在此处查看当前的提案。 它看起来像:
executor = get_executor();
sort( std::execution::par.on(executor), vec.begin(), vec.end());
您的一些问题已在该提案中定义。
(对于第 6 次)有许多库已经实现了类似的概念(C++ executor
确实受到了其中一些的启发),AFAIK:hpx、Thrust 或 Boost.Compute。 我不知道最后两个是如何实际实现的,但是对于 hpx,它们使用轻量级线程,您可以配置执行配置文件。 此外,上述 C++17 代码的预期(尚未标准化)语法与 hpx 中的(深受启发)基本相同。
参考:
Pre-final C++17 草案没有说明“如何实现多线程算法”,这是真的。 实施所有者自己决定如何做到这一点。 例如,并行 STL使用TBB作为线程后端,使用OpenMP作为矢量化后端。 我想要了解此实现如何与您的机器匹配 - 您需要阅读特定于实现的文档
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.