[英]Visual Studio 2012 different values Release/Debug mode
在調試和發布模式之間切換時,此代碼在MSVS 2012,Windows 7中生成不同的值:
#include <iostream>
using namespace std;
int A[20000];
int main() {
int shift = 0;
int Period = 30;
//Fill array
for(int i = 0; i < 20000; i++) {
A[i] = i * 2 + 123;
}
int sumTotal = 0;
int sum = 0;
for(int bars = Period + 10; bars < 1000; bars++) {
sum = 0;
for(int i = 0; i< Period; i++) {
sum += A[bars - i];
}
sumTotal += sum;
}
cout << sumTotal << endl;
}
你能復制還是找到原因? 我一直在測試項目屬性的各種設置。
/GS /GL /analyze- /W3 /Gy /Zc:wchar_t /I"C:\\Program Files (x86)\\Visual Leak Detector\\include" /Z7 /Gm- /O2 /Fd"Release\\vc110.pdb" /fp:precise /D "WIN32" /D "NDEBUG" /D "_CONSOLE" /D "_UNICODE" /D "UNICODE" /errorReport:prompt /WX- /Zc:forScope /Gd /Oy- /Oi /MD /Fa"Release\\" /EHsc /nologo /Fo"Release\\" /Fp"Release\\Testing.pch"
我使用VS2012 C編譯器測試了代碼的“簡化”版本
int main()
{
int A[12] = { 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 };
int sum = 0;
int i;
for (i = 0; i < 12; ++i)
sum += A[11 - i];
printf("%d\n", sum);
return 0;
}
我在x64模式下編譯了發布配置,針對速度進行了優化。 該錯誤仍然存在,但根據其他優化和代碼生成設置,它會以不同方式顯示出來。 一個版本的代碼生成“隨機”結果,而另一個版本始終生成8
作為總和(而不是正確的12
)。
這是生成的代碼對於始終生成8
的版本的樣子
000000013FC81DF0 mov rax,rsp
000000013FC81DF3 sub rsp,68h
000000013FC81DF7 movd xmm1,dword ptr [rax-18h]
000000013FC81DFC movd xmm2,dword ptr [rax-10h]
000000013FC81E01 movd xmm5,dword ptr [rax-0Ch]
000000013FC81E06 xorps xmm0,xmm0
000000013FC81E09 xorps xmm3,xmm3
for (i = 0; i < 12; ++i)
000000013FC81E0C xor ecx,ecx
000000013FC81E0E mov dword ptr [rax-48h],1
000000013FC81E15 mov dword ptr [rax-44h],1
000000013FC81E1C mov dword ptr [rax-40h],1
000000013FC81E23 punpckldq xmm2,xmm1
000000013FC81E27 mov dword ptr [rax-3Ch],1
000000013FC81E2E mov dword ptr [rax-38h],1
000000013FC81E35 mov dword ptr [rax-34h],1
{
sum += A[11 - i];
000000013FC81E3C movdqa xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013FC83360h)]
000000013FC81E44 paddd xmm4,xmm0
000000013FC81E48 movd xmm0,dword ptr [rax-14h]
000000013FC81E4D mov dword ptr [rax-30h],1
000000013FC81E54 mov dword ptr [rax-2Ch],1
000000013FC81E5B mov dword ptr [rax-28h],1
000000013FC81E62 mov dword ptr [rax-24h],1
000000013FC81E69 punpckldq xmm5,xmm0
000000013FC81E6D punpckldq xmm5,xmm2
000000013FC81E71 paddd xmm5,xmm3
000000013FC81E75 paddd xmm5,xmm4
000000013FC81E79 mov dword ptr [rax-20h],1
000000013FC81E80 mov dword ptr [rax-1Ch],1
000000013FC81E87 mov r8d,ecx
000000013FC81E8A movdqa xmm0,xmm5
000000013FC81E8E psrldq xmm0,8
000000013FC81E93 paddd xmm5,xmm0
000000013FC81E97 movdqa xmm0,xmm5
000000013FC81E9B lea rax,[rax-40h]
000000013FC81E9F mov r9d,2
000000013FC81EA5 psrldq xmm0,4
000000013FC81EAA paddd xmm5,xmm0
000000013FC81EAE movd edx,xmm5
000000013FC81EB2 nop word ptr [rax+rax]
{
sum += A[11 - i];
000000013FC81EC0 add ecx,dword ptr [rax+4]
000000013FC81EC3 add r8d,dword ptr [rax]
000000013FC81EC6 lea rax,[rax-8]
000000013FC81ECA dec r9
000000013FC81ECD jne main+0D0h (013FC81EC0h)
}
printf("%d\n", sum);
000000013FC81ECF lea eax,[r8+rcx]
000000013FC81ED3 lea rcx,[__security_cookie_complement+8h (013FC84040h)]
000000013FC81EDA add edx,eax
000000013FC81EDC call qword ptr [__imp_printf (013FC83140h)]
return 0;
000000013FC81EE2 xor eax,eax
}
000000013FC81EE4 add rsp,68h
000000013FC81EE8 ret
代碼生成器和優化器遺留了許多奇怪的,看似不必要的mumbo-jumbo,但是這段代碼的功能可以簡要描述如下。
有兩種獨立的算法用於產生最終總和,這顯然應該處理陣列的不同部分。 我猜兩個處理流程(非SSE和SSE)用於通過指令流水線來促進並行性。
一種算法是一個簡單的循環,它對數組元素求和,每次迭代處理兩個元素。 它可以從上面的“交錯”代碼中提取如下
; Initialization
000000013F1E1E0C xor ecx,ecx ; ecx - odd element sum
000000013F1E1E87 mov r8d,ecx ; r8 - even element sum
000000013F1E1E9B lea rax,[rax-40h] ; start from i = 2
000000013F1E1E9F mov r9d,2 ; do 2 iterations
; The cycle
000000013F1E1EC0 add ecx,dword ptr [rax+4] ; ecx += A[i + 1]
000000013F1E1EC3 add r8d,dword ptr [rax] ; r8d += A[i]
000000013F1E1EC6 lea rax,[rax-8] ; i -= 2
000000013F1E1ECA dec r9
000000013F1E1ECD jne main+0D0h (013F1E1EC0h) ; loop again if r9 is not zero
這個算法開始從地址rax - 40h
添加元素,在我的實驗中它等於&A[2]
,並使兩個迭代向后跳過兩個元素。 這會在寄存器r8
累加A[0]
和A[2]
之和,並在寄存器ecx
累加A[1]
和A[3]
和。 因此,算法的這一部分處理數組的4個元素,並在r8
和ecx
正確生成值2
。
算法的另一部分是使用SSE指令編寫的,顯然負責對數組的剩余部分求和。 它可以從代碼中提取如下
; Initially xmm5 is zero
000000013F1E1E3C movdqa xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013F1E3360h)]
000000013F1E1E75 paddd xmm5,xmm4
000000013F1E1E8A movdqa xmm0,xmm5 ; copy
000000013F1E1E8E psrldq xmm0,8 ; shift
000000013F1E1E93 paddd xmm5,xmm0 ; and add
000000013F1E1E8A movdqa xmm0,xmm5 ; copy
000000013F1E1E8E psrldq xmm0,4 ; shift
000000013F1E1E93 paddd xmm5,xmm0 ; and add
000000013F1E1EAE movd edx,xmm5 ; edx - the sum
該部分使用的一般算法很簡單:它將值0x00000001000000010000000100000001
放在128位寄存器xmm5
,然后將其向右移動8個字節( 0x00000000000000000000000100000001
)並將其添加到原始值,生成0x00000001000000010000000200000002
。 這再次向右移動4個字節( 0x00000000000000010000000100000002
)並再次添加到先前的值,產生0x00000001000000020000000300000004
。 將xmm5
的最后32位字0x00000004
作為結果並放入寄存器edx
。 因此,該算法產生4
作為其最終結果。 很明顯,該算法只是在128位寄存器中執行連續32位字的“並行”加法。 注意,順便說一句,該算法甚至沒有嘗試訪問A
,它開始從編譯器/優化器產生的嵌入常量求和。
現在,最后將r8 + ecx + edx
值報告為最終總和。 顯然,這只是8
,而不是正確的12
。 看起來這兩種算法中的一種忘記了它的一些工作。 我不知道哪一個,但從豐富的“冗余”指令判斷,它看起來是SSE算法應該在edx
而不是4
生成8
。 這是一個可疑的指令
000000013FC81E71 paddd xmm5,xmm3
那時xmm3
總是包含零。 因此,該指令看起來完全冗余且不必要。 但是,如果xmm3
實際上包含另一個“魔術”常量,表示數組的另外4個元素(就像xmm4
那樣),那么算法將正常工作並產生適當的總和。
如果對數組元素使用不同的初始值
int A[12] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 };
可以清楚地看出,第一(非SSE)算法成功地總結1, 2, 3, 4
,而第二個(SSE)算法總結9, 10, 11, 12
。 5, 6, 7, 8
仍被排除在考慮之外,導致52
為最終總和而不是正確的78
。
這絕對是編譯器/優化器的錯誤。
PS導入到VS2013 Update 2中的相同設置的相同項目似乎沒有受到此錯誤的影響。
我相信你在優化器中發現了一個錯誤。 你可以得到一個發布版本通過禁用任何優化或通過添加具有副作用,不能被優化掉額外的代碼產生相同的(正確)的輸出為調試版本(如cout << "hi"
),最里面里面for
循環(這可能會阻止任何優化被錯誤地執行,否則)。 我建議向微軟報告。
更新: Microsoft確認這是與自動矢量化相關的錯誤,並且已在VS2013更新2中修復。其他版本的解決方法是通過在循環前添加#pragma loop(no_vector)
來禁用矢量化。
此外,他們描述了兩種可以觸發bug的不同循環結構。 我會引用它們:
錯誤有兩種情況:
1)當用戶burzvingion提到時,循環得到形式的矢量化:
for(int i = 0; ...){sum = A [...] - sum; }
2)得到形式矢量化的循環:
for(int i = 0; ...){sum = sum + A [ - i]; }
他們還提出以下建議來查找易受攻擊的代碼:
如果您正在查看源代碼以嘗試查找這些情況,我建議首先拋出/ Qvec-report:1來查找所有已進行矢量化的循環,然后從那里開始。 要解決這些錯誤,請將#pragma loop(no_vector)放在for循環之上。
產生優化錯誤的代碼可以減少到以下:
#include <iostream>
using namespace std;
#define SIZE 12
int main()
{
int A[SIZE] = {0};
int sum = 0;
for (int i=0; i<SIZE; i++)
sum += A[SIZE-1-i];
cout << sum << endl;
return 0;
}
可以通過應用以下任一更改來刪除優化錯誤:
SIZE
的定義更改為低於12的值 A[SIZE-1-i]
更改為A[SIZE-i-1]
cout << sum << endl
到循環中 因此,為了診斷問題,我們可以簡單地應用這些更改中的任何一個,然后在更改之前的代碼的反匯編和更改之后的代碼的反匯編之間進行比較。
我比較了兩種情況的asm代碼(在VC ++ 2013 express中),在發布版本中,for循環版本中的asm代碼
for (int i = 0; i< Period; i++)
在下面,它與調試版本中的非常不同
$LL6@main:
; 23 : sum = 0;
; 24 : for (int i = 0; i< Period; i++){
xorps xmm5, xmm5
lea eax, DWORD PTR [edi+88]
xorps xmm4, xmm4
mov ecx, 3
npad 2
$LL3@main:
; 25 : //cout << "hi";
; 26 : sum += A[bars - i];
movd xmm2, DWORD PTR [eax-4]
lea eax, DWORD PTR [eax-32]
movd xmm0, DWORD PTR [eax+32]
movd xmm1, DWORD PTR [eax+36]
movd xmm3, DWORD PTR [eax+40]
punpckldq xmm3, xmm0
movd xmm0, DWORD PTR [eax+48]
punpckldq xmm1, xmm2
movd xmm2, DWORD PTR [eax+44]
punpckldq xmm3, xmm1
movd xmm1, DWORD PTR [eax+52]
paddd xmm5, xmm3
movd xmm3, DWORD PTR [eax+56]
punpckldq xmm3, xmm0
punpckldq xmm1, xmm2
punpckldq xmm3, xmm1
paddd xmm4, xmm3
dec ecx
jne SHORT $LL3@main
; 23 : sum = 0;
; 24 : for (int i = 0; i< Period; i++){
paddd xmm4, xmm5
xor edx, edx
movdqa xmm0, xmm4
mov eax, edi
psrldq xmm0, 8
mov esi, 3
paddd xmm4, xmm0
movdqa xmm0, xmm4
psrldq xmm0, 4
paddd xmm4, xmm0
movd ebx, xmm4
npad 7
$LL30@main:
; 25 : //cout << "hi";
; 26 : sum += A[bars - i];
add ecx, DWORD PTR [eax]
lea eax, DWORD PTR [eax-8]
add edx, DWORD PTR [eax+4]
dec esi
jne SHORT $LL30@main
; 27 :
}
正如你可以從asm代碼那樣,這里使用了SSE指令。 所以我在VC ++中檢查了SSE指令的編譯器選項 ,然后我指定了/ arch:IA32來禁止在發布版本中為x86處理器生成SSE和SSE2指令,然后我得到了與調試版本相同的結果。
我不熟悉SSE,我希望有人可以根據我的發現解釋更多。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.