uint32_t 作为向量索引在 64 位中比 size_t 具有更好的性能

Question

我有一些与此类似的性能关键代码：

void func(std::vector<int>& v, size_t i)
{
  while(i > 0)
  {
    // do something with v[i]
    // compute next i   
  }
}

在我将i的类型从size_t更改为uint32_t后，代码的运行时间减少了 10% 以上。 调用此 function 时，其输入类型始终为size_t 。 该代码是使用 Clang 以 64 位编译的。 function 被编译器内联在更复杂上下文的多个位置，因此很难比较汇编代码。 有什么一般的想法为什么会发生这种情况？

我做了一些进一步的调查。 首先，当使用uint32_t作为向量索引时，Clang 似乎不能很好地优化代码。 请参见以下示例：

void func(std::vector<int>& v, size_t i)
{
  for(auto j = i; j < v.size(); ++j)
  {
    v[j] = 0;    
  }
}

如果我们将size_t更改为uint32_t ，将生成大量的程序集： https://godbolt.org/z/1qrrrs

至于我的性能关键代码，当使用size_t时，Clang 可以进行更积极的循环展开。 然而，事实证明这种展开的性能更差，可能是由于某些分支没有像预期的那样经常被击中。 我手动做了一些展开，现在size_t和uint32_t之间的性能是一样的。

Answer 1

有什么一般的想法为什么会发生这种情况？

CPU 上的 32 位操作可能更快
变量大小的变化可能导致堆栈相对于 memory 页面边界的对齐方式不同，和/或由于缓存冲突导致某些特别关键的数据或指令不会丢失，从而导致偶然更改在性能上。

uint32_t 作为向量索引在 64 位中比 size_t 具有更好的性能

问题描述

1 个解决方案

解决方案1
0 2021-03-10 04:12:31

uint32_t 作为向量索引在 64 位中比 size_t 具有更好的性能

问题描述

1 个解决方案

解决方案1 0 2021-03-10 04:12:31

解决方案1
0 2021-03-10 04:12:31