使用int32_t而不是double运行矢量点积是否更快？

Question

我读过几篇文章（例如， C ++内置类型），说对于现代intel XEON CPU，使用int32_t和使用double没有区别。

但是，我注意到当我进行向量乘法时，

std::vector<T> a, b, c;
// run some initialization
for( std::size_t i = 0; i < 1000000; ++i){
    c[i] = a[i] * b[i];
}

如果我将T设置为int32_t，则这段代码的运行速度比将T设置为double的快得多。

我在XEON E5620 + centOS上运行

有人可以在这里澄清一下吗？ 使用int32_t是否更快？

Answer 1

您正在使用200万个输入和100万个输出运行一百万个乘法。 如果使用4个字节的值，则为12 MB。 如果使用8个字节的值，则为24MB。 E5620具有12 MB缓存。

Answer 2

这是我的CPU产生的结果；

Intel（R）CoreTM i5-8250U CPU @ 1.60GHz gcc 7.3

纯gcc，无优化

short add/sub: 1.586071 [0]
short mul/div: 5.601069 [1]
long add/sub: 1.659803 [0]    
long mul/div: 8.145207 [0] 
long long add/sub: 1.826622 [0]    
long long mul/div: 8.161891 [0]  
float add/sub: 2.685403 [0]    
float mul/div: 3.758135 [0]
double add/sub: 2.662717 [0]
double mul/div: 4.189572 [0]

与gcc -O3

short add/sub: 0.000001 [0]
short mul/div: 4.491903 [1]
long add/sub: 0.000000 [0]
long mul/div: 6.535028 [0]
long long add/sub: 0.000000 [0]
long long mul/div: 6.543064 [0]
float add/sub: 1.182737 [0]
float mul/div: 2.218142 [0]
double add/sub: 1.183991 [0]
double mul/div: 2.529001 [0]

结果确实取决于您的体系结构和优化。 我记得我20年前在我的大学里有一台IBM Sparc工作站，它的浮点性能比整数好。

请阅读这个不错的演讲；

使用int32_t而不是double运行矢量点积是否更快？

问题描述

2 个解决方案

解决方案1
3 2018-09-25 07:47:06

解决方案2
2 2018-09-24 20:13:31

使用int32_t而不是double运行矢量点积是否更快？

问题描述

2 个解决方案

解决方案1 3 2018-09-25 07:47:06

解决方案2 2 2018-09-24 20:13:31

解决方案1
3 2018-09-25 07:47:06

解决方案2
2 2018-09-24 20:13:31