Visual Studio 2012不同的值釋放/調試模式

Question

在調試和發布模式之間切換時，此代碼在MSVS 2012，Windows 7中生成不同的值：

#include <iostream>
using namespace std;

int A[20000];

int main() {

    int shift = 0;
    int Period = 30;
    //Fill array
    for(int i = 0; i < 20000; i++) {
        A[i] = i * 2 + 123;
    }

    int sumTotal = 0;
    int sum = 0;

    for(int bars = Period + 10; bars < 1000; bars++) {
        sum = 0;
        for(int i = 0; i< Period; i++) {
            sum += A[bars - i];
        }
        sumTotal += sum;
    }
    cout << sumTotal << endl;
}

你能復制還是找到原因？ 我一直在測試項目屬性的各種設置。

調試（正確的結果）：32630400
發布：32814720

/GS /GL /analyze- /W3 /Gy /Zc:wchar_t /I"C:\\Program Files (x86)\\Visual Leak Detector\\include" /Z7 /Gm- /O2 /Fd"Release\\vc110.pdb" /fp:precise /D "WIN32" /D "NDEBUG" /D "_CONSOLE" /D "_UNICODE" /D "UNICODE" /errorReport:prompt /WX- /Zc:forScope /Gd /Oy- /Oi /MD /Fa"Release\\" /EHsc /nologo /Fo"Release\\" /Fp"Release\\Testing.pch"

Answer 1

我使用VS2012 C編譯器測試了代碼的“簡化”版本

int main()
{
  int A[12] = { 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 };

  int sum = 0;
  int i;

  for (i = 0; i < 12; ++i)
     sum += A[11 - i];

  printf("%d\n", sum);

  return 0;
}

我在x64模式下編譯了發布配置，針對速度進行了優化。 該錯誤仍然存在，但根據其他優化和代碼生成設置，它會以不同方式顯示出來。 一個版本的代碼生成“隨機”結果，而另一個版本始終生成8作為總和（而不是正確的12 ）。

這是生成的代碼對於始終生成8的版本的樣子

000000013FC81DF0  mov         rax,rsp  
000000013FC81DF3  sub         rsp,68h  
000000013FC81DF7  movd        xmm1,dword ptr [rax-18h]  
000000013FC81DFC  movd        xmm2,dword ptr [rax-10h]  
000000013FC81E01  movd        xmm5,dword ptr [rax-0Ch]  
000000013FC81E06  xorps       xmm0,xmm0  
000000013FC81E09  xorps       xmm3,xmm3  

for (i = 0; i < 12; ++i)
000000013FC81E0C  xor         ecx,ecx  
000000013FC81E0E  mov         dword ptr [rax-48h],1  
000000013FC81E15  mov         dword ptr [rax-44h],1  
000000013FC81E1C  mov         dword ptr [rax-40h],1  
000000013FC81E23  punpckldq   xmm2,xmm1  
000000013FC81E27  mov         dword ptr [rax-3Ch],1  
000000013FC81E2E  mov         dword ptr [rax-38h],1  
000000013FC81E35  mov         dword ptr [rax-34h],1  
{
     sum += A[11 - i];
000000013FC81E3C  movdqa      xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013FC83360h)]  
000000013FC81E44  paddd       xmm4,xmm0  
000000013FC81E48  movd        xmm0,dword ptr [rax-14h]  
000000013FC81E4D  mov         dword ptr [rax-30h],1  
000000013FC81E54  mov         dword ptr [rax-2Ch],1  
000000013FC81E5B  mov         dword ptr [rax-28h],1  
000000013FC81E62  mov         dword ptr [rax-24h],1  
000000013FC81E69  punpckldq   xmm5,xmm0  
000000013FC81E6D  punpckldq   xmm5,xmm2  
000000013FC81E71  paddd       xmm5,xmm3  
000000013FC81E75  paddd       xmm5,xmm4  
000000013FC81E79  mov         dword ptr [rax-20h],1  
000000013FC81E80  mov         dword ptr [rax-1Ch],1  
000000013FC81E87  mov         r8d,ecx  
000000013FC81E8A  movdqa      xmm0,xmm5  
000000013FC81E8E  psrldq      xmm0,8  
000000013FC81E93  paddd       xmm5,xmm0  
000000013FC81E97  movdqa      xmm0,xmm5  
000000013FC81E9B  lea         rax,[rax-40h]  
000000013FC81E9F  mov         r9d,2  
000000013FC81EA5  psrldq      xmm0,4  
000000013FC81EAA  paddd       xmm5,xmm0  
000000013FC81EAE  movd        edx,xmm5  
000000013FC81EB2  nop         word ptr [rax+rax]  
{
     sum += A[11 - i];
000000013FC81EC0  add         ecx,dword ptr [rax+4]  
000000013FC81EC3  add         r8d,dword ptr [rax]  
000000013FC81EC6  lea         rax,[rax-8]  
000000013FC81ECA  dec         r9  
000000013FC81ECD  jne         main+0D0h (013FC81EC0h)  
}

printf("%d\n", sum);
000000013FC81ECF  lea         eax,[r8+rcx]  
000000013FC81ED3  lea         rcx,[__security_cookie_complement+8h (013FC84040h)]  
000000013FC81EDA  add         edx,eax  
000000013FC81EDC  call        qword ptr [__imp_printf (013FC83140h)]  

return 0;
000000013FC81EE2  xor         eax,eax  
}
000000013FC81EE4  add         rsp,68h  
000000013FC81EE8  ret

代碼生成器和優化器遺留了許多奇怪的，看似不必要的mumbo-jumbo，但是這段代碼的功能可以簡要描述如下。

有兩種獨立的算法用於產生最終總和，這顯然應該處理陣列的不同部分。 我猜兩個處理流程（非SSE和SSE）用於通過指令流水線來促進並行性。

一種算法是一個簡單的循環，它對數組元素求和，每次迭代處理兩個元素。 它可以從上面的“交錯”代碼中提取如下

; Initialization
000000013F1E1E0C  xor         ecx,ecx                 ; ecx - odd element sum
000000013F1E1E87  mov         r8d,ecx                 ; r8 - even element sum
000000013F1E1E9B  lea         rax,[rax-40h]           ; start from i = 2
000000013F1E1E9F  mov         r9d,2                   ; do 2 iterations

; The cycle
000000013F1E1EC0  add         ecx,dword ptr [rax+4]   ; ecx += A[i + 1]
000000013F1E1EC3  add         r8d,dword ptr [rax]     ; r8d += A[i]
000000013F1E1EC6  lea         rax,[rax-8]             ; i -= 2
000000013F1E1ECA  dec         r9                      
000000013F1E1ECD  jne         main+0D0h (013F1E1EC0h) ; loop again if r9 is not zero

這個算法開始從地址rax - 40h添加元素，在我的實驗中它等於&A[2] ，並使兩個迭代向后跳過兩個元素。 這會在寄存器r8累加A[0]和A[2]之和，並在寄存器ecx累加A[1]和A[3]和。 因此，算法的這一部分處理數組的4個元素，並在r8和ecx正確生成值2 。

算法的另一部分是使用SSE指令編寫的，顯然負責對數組的剩余部分求和。 它可以從代碼中提取如下

; Initially xmm5 is zero
000000013F1E1E3C  movdqa      xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013F1E3360h)]  
000000013F1E1E75  paddd       xmm5,xmm4  

000000013F1E1E8A  movdqa      xmm0,xmm5               ; copy
000000013F1E1E8E  psrldq      xmm0,8                  ; shift
000000013F1E1E93  paddd       xmm5,xmm0               ; and add

000000013F1E1E8A  movdqa      xmm0,xmm5               ; copy
000000013F1E1E8E  psrldq      xmm0,4                  ; shift
000000013F1E1E93  paddd       xmm5,xmm0               ; and add

000000013F1E1EAE  movd        edx,xmm5                ; edx - the sum

該部分使用的一般算法很簡單：它將值0x00000001000000010000000100000001放在128位寄存器xmm5 ，然后將其向右移動8個字節（ 0x00000000000000000000000100000001 ）並將其添加到原始值，生成0x00000001000000010000000200000002 。 這再次向右移動4個字節（ 0x00000000000000010000000100000002 ）並再次添加到先前的值，產生0x00000001000000020000000300000004 。 將xmm5的最后32位字0x00000004作為結果並放入寄存器edx 。 因此，該算法產生4作為其最終結果。 很明顯，該算法只是在128位寄存器中執行連續32位字的“並行”加法。 注意，順便說一句，該算法甚至沒有嘗試訪問A ，它開始從編譯器/優化器產生的嵌入常量求和。

現在，最后將r8 + ecx + edx值報告為最終總和。 顯然，這只是8 ，而不是正確的12 。 看起來這兩種算法中的一種忘記了它的一些工作。 我不知道哪一個，但從豐富的“冗余”指令判斷，它看起來是SSE算法應該在edx而不是4生成8 。 這是一個可疑的指令

000000013FC81E71  paddd       xmm5,xmm3

那時xmm3總是包含零。 因此，該指令看起來完全冗余且不必要。 但是，如果xmm3實際上包含另一個“魔術”常量，表示數組的另外4個元素（就像xmm4那樣），那么算法將正常工作並產生適當的總和。

如果對數組元素使用不同的初始值

int A[12] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 };

可以清楚地看出，第一（非SSE）算法成功地總結1, 2, 3, 4 ，而第二個（SSE）算法總結9, 10, 11, 12 。 5, 6, 7, 8仍被排除在考慮之外，導致52為最終總和而不是正確的78 。

這絕對是編譯器/優化器的錯誤。

PS導入到VS2013 Update 2中的相同設置的相同項目似乎沒有受到此錯誤的影響。

Answer 2

我相信你在優化器中發現了一個錯誤。 你可以得到一個發布版本通過禁用任何優化或通過添加具有副作用，不能被優化掉額外的代碼產生相同的（正確）的輸出為調試版本（如cout << "hi" ），最里面里面for循環（這可能會阻止任何優化被錯誤地執行，否則）。 我建議向微軟報告。

更新： Microsoft確認這是與自動矢量化相關的錯誤，並且已在VS2013更新2中修復。其他版本的解決方法是通過在循環前添加#pragma loop(no_vector)來禁用矢量化。

此外，他們描述了兩種可以觸發bug的不同循環結構。 我會引用它們：

錯誤有兩種情況：

1）當用戶burzvingion提到時，循環得到形式的矢量化：

for（int i = 0; ...）{sum = A [...] - sum; }

2）得到形式矢量化的循環：

for（int i = 0; ...）{sum = sum + A [ - i]; }

他們還提出以下建議來查找易受攻擊的代碼：

如果您正在查看源代碼以嘗試查找這些情況，我建議首先拋出/ Qvec-report：1來查找所有已進行矢量化的循環，然后從那里開始。 要解決這些錯誤，請將#pragma loop（no_vector）放在for循環之上。

Answer 3

產生優化錯誤的代碼可以減少到以下：

#include <iostream>
using namespace std;

#define SIZE 12

int main()
{
    int A[SIZE] = {0};

    int sum = 0;
    for (int i=0; i<SIZE; i++)
        sum += A[SIZE-1-i];
    cout << sum << endl;

    return 0;
}

可以通過應用以下任一更改來刪除優化錯誤：

將SIZE的定義更改為低於12的值
將表達式A[SIZE-1-i]更改為A[SIZE-i-1]
將操作cout << sum << endl到循環中

因此，為了診斷問題，我們可以簡單地應用這些更改中的任何一個，然后在更改之前的代碼的反匯編和更改之后的代碼的反匯編之間進行比較。

Answer 4

我比較了兩種情況的asm代碼（在VC ++ 2013 express中），在發布版本中，for循環版本中的asm代碼

for (int i = 0; i< Period; i++)

在下面，它與調試版本中的非常不同

$LL6@main:

; 23   :        sum = 0;
; 24   :        for (int i = 0; i< Period; i++){

    xorps   xmm5, xmm5
    lea eax, DWORD PTR [edi+88]
    xorps   xmm4, xmm4
    mov ecx, 3
    npad    2
$LL3@main:

; 25   :            //cout << "hi";
; 26   :            sum += A[bars - i];

    movd    xmm2, DWORD PTR [eax-4]
    lea eax, DWORD PTR [eax-32]
    movd    xmm0, DWORD PTR [eax+32]
    movd    xmm1, DWORD PTR [eax+36]
    movd    xmm3, DWORD PTR [eax+40]
    punpckldq xmm3, xmm0
    movd    xmm0, DWORD PTR [eax+48]
    punpckldq xmm1, xmm2
    movd    xmm2, DWORD PTR [eax+44]
    punpckldq xmm3, xmm1
    movd    xmm1, DWORD PTR [eax+52]
    paddd   xmm5, xmm3
    movd    xmm3, DWORD PTR [eax+56]
    punpckldq xmm3, xmm0
    punpckldq xmm1, xmm2
    punpckldq xmm3, xmm1
    paddd   xmm4, xmm3
    dec ecx
    jne SHORT $LL3@main

; 23   :        sum = 0;
; 24   :        for (int i = 0; i< Period; i++){

    paddd   xmm4, xmm5
    xor edx, edx
    movdqa  xmm0, xmm4
    mov eax, edi
    psrldq  xmm0, 8
    mov esi, 3
    paddd   xmm4, xmm0
    movdqa  xmm0, xmm4
    psrldq  xmm0, 4
    paddd   xmm4, xmm0
    movd    ebx, xmm4
    npad    7
$LL30@main:

; 25   :            //cout << "hi";
; 26   :            sum += A[bars - i];

    add ecx, DWORD PTR [eax]
    lea eax, DWORD PTR [eax-8]
    add edx, DWORD PTR [eax+4]
    dec esi
    jne SHORT $LL30@main

; 27   :    

}

正如你可以從asm代碼那樣，這里使用了SSE指令。 所以我在VC ++中檢查了SSE指令的編譯器選項，然后我指定了/ arch：IA32來禁止在發布版本中為x86處理器生成SSE和SSE2指令，然后我得到了與調試版本相同的結果。

我不熟悉SSE，我希望有人可以根據我的發現解釋更多。

Visual Studio 2012不同的值釋放/調試模式

問題描述

4 個解決方案

解決方案1
18 2014-06-10 17:34:42

解決方案2
15 2014-06-10 14:50:35

解決方案3
5 2014-06-10 16:43:19

解決方案4
4 2014-06-10 15:41:02

Visual Studio 2012不同的值釋放/調試模式

問題描述

4 個解決方案

解決方案1 18 2014-06-10 17:34:42

解決方案2 15 2014-06-10 14:50:35

解決方案3 5 2014-06-10 16:43:19

解決方案4 4 2014-06-10 15:41:02

解決方案1
18 2014-06-10 17:34:42

解決方案2
15 2014-06-10 14:50:35

解決方案3
5 2014-06-10 16:43:19

解決方案4
4 2014-06-10 15:41:02