IEEE 754 兩個 32 位浮點數的加法（-1 和 2^(-50)）

Question

考慮以下 C++ 代碼：

#include <iostream>
#include <cmath>

using namespace std;

int main()
{
    cout.precision(1000000000);
    
    float a,b,c;
    
    a = 1;
    b = -1;
    c = pow(2, -50);
    
    cout << "a = " << a << endl;
    cout << "b = " << b << endl;
    cout << "c = " << c << endl;
    
    float ab = a + b;
    float bc = b + c;
    float abc = ab + c;
    float bca = bc + a;
    
    cout << "a + b = " << ab << endl;
    cout << "b + c = " << bc << endl;
    cout << "(a + b) + c = " << abc << endl;
    cout << "(b + c) + a = " << bca << endl;

    return 0;
}

產生輸出：

a = 1
b = -1
c = 8.8817841970012523233890533447265625e-16
a + b = 0
b + c = -1
(a + b) + c = 8.8817841970012523233890533447265625e-16
(b + c) + a = 0

為什么 b + c = -1？

我不明白 IEEE 754 標准的這種影響。

據我了解，指數范圍從 -126 到 127。（偏置指數為 8 位，偏置為 127。）

所以 2^(-50) 可以像 1 或 -1 一樣沒有問題地表示。 如果我正確理解標准，它們都不是次正規（非正規化）數字。

但是為什么 -1 + 2^(-50) 的加法結果是 -1，從而忽略了較小的數字？

在此先感謝您的幫助！

Answer 1

IEEE 754 標准規定 1 個符號位、7 個指數位和 24 個尾數位。 在執行加法時，每個數字的尾數都會被標准化，因此 2^-50 相對於 1 右移 50 位 1。這導致它落在用於結果的 24 位尾數之外。 你應該嘗試用 2^-25 重復你的實驗來證明這一點。

Answer 2

您正在使用（至少）單精度float 。 使用double代替。

-1+9e-16在單精度的-1舍入范圍內。

IEEE 754 兩個 32 位浮點數的加法（-1 和 2^(-50)）

問題描述

2 個解決方案

解決方案1
2 已采納 2021-10-29 16:38:43

解決方案2
0 2021-10-29 15:56:43

IEEE 754 兩個 32 位浮點數的加法（-1 和 2^(-50)）

問題描述

2 個解決方案

解決方案1 2 已采納 2021-10-29 16:38:43

解決方案2 0 2021-10-29 15:56:43

解決方案1
2 已采納 2021-10-29 16:38:43

解決方案2
0 2021-10-29 15:56:43