VS2010 Memcpy快速魔術

Question

您好（抱歉，我的英語不好），對於某些可移植性問題，我需要為自己編寫一個內存復制功能。 但我的最佳嘗試是比Visual Studio 2010的標准memcpy慢40-70％。 而且我不知道為什么。 接下來，您可以看到我的主復制循環，該循環復制所有128字節的數據塊（該函數中的所有其他代碼的操作次數受到限制，可以假定為O（1））。

MOVDQA XMM0,DQWORD PTR DS:[ESI]
MOVDQA XMM1,DQWORD PTR DS:[ESI+10]
MOVDQA XMM2,DQWORD PTR DS:[ESI+20]
MOVDQA XMM3,DQWORD PTR DS:[ESI+30]
MOVDQA DQWORD PTR DS:[EDI],XMM0
MOVDQA DQWORD PTR DS:[EDI+10],XMM1
MOVDQA DQWORD PTR DS:[EDI+20],XMM2
MOVDQA DQWORD PTR DS:[EDI+30],XMM3
MOVDQA XMM4,DQWORD PTR DS:[ESI+40]
MOVDQA XMM5,DQWORD PTR DS:[ESI+50]
MOVDQA XMM6,DQWORD PTR DS:[ESI+60]
MOVDQA XMM7,DQWORD PTR DS:[ESI+70]
MOVDQA DQWORD PTR DS:[EDI+40],XMM4
MOVDQA DQWORD PTR DS:[EDI+50],XMM5
MOVDQA DQWORD PTR DS:[EDI+60],XMM6
MOVDQA DQWORD PTR DS:[EDI+70],XMM7
LEA ESI,[ESI+80]
LEA EDI,[EDI+80]
DEC ECX
JNE SHORT 002410B9

接下來我在標准memcpy中找到了

MOVDQA XMM0,DQWORD PTR DS:[ESI]
MOVDQA XMM1,DQWORD PTR DS:[ESI+10]
MOVDQA XMM2,DQWORD PTR DS:[ESI+20]
MOVDQA XMM3,DQWORD PTR DS:[ESI+30]
MOVDQA DQWORD PTR DS:[EDI],XMM0
MOVDQA DQWORD PTR DS:[EDI+10],XMM1
MOVDQA DQWORD PTR DS:[EDI+20],XMM2
MOVDQA DQWORD PTR DS:[EDI+30],XMM3
MOVDQA XMM4,DQWORD PTR DS:[ESI+40]
MOVDQA XMM5,DQWORD PTR DS:[ESI+50]
MOVDQA XMM6,DQWORD PTR DS:[ESI+60]
MOVDQA XMM7,DQWORD PTR DS:[ESI+70]
MOVDQA DQWORD PTR DS:[EDI+40],XMM4
MOVDQA DQWORD PTR DS:[EDI+50],XMM5
MOVDQA DQWORD PTR DS:[EDI+60],XMM6
MOVDQA DQWORD PTR DS:[EDI+70],XMM7
LEA ESI,[ESI+80]
LEA EDI,[EDI+80]
DEC EDX
JNE SHORT 6B150A72

如您所見，這個周期與我的周期幾乎相同，但是隨着要復制的數據量的增加，我的功能越來越慢（與std memcpy相比）。

誰能回答我的錯誤在哪里？

PS那是我的main（）代碼

void main(void){    

LARGE_INTEGER freq;
QueryPerformanceFrequency(&freq);

int* mas = new int[10000000];
for(int i = 0; i < 10000000; ++i)
    mas[i] = i;

LARGE_INTEGER mmcpy = { 0 };
LARGE_INTEGER mmsse = { 0 };

for(int i = 0; i < 10000; ++i)
{
    LARGE_INTEGER beforeMemcpy_sse, afterMemcpy_sse;
    QueryPerformanceCounter(&beforeMemcpy_sse);
    TestMemcpy_sse(mas, (char*)mas + 300000, 4400000);
    QueryPerformanceCounter(&afterMemcpy_sse);

    LARGE_INTEGER beforeMemcpy, afterMemcpy;
    QueryPerformanceCounter(&beforeMemcpy);
    memcpy(mas, (char*)mas + 300000, 4400000);
    QueryPerformanceCounter(&afterMemcpy);

    mmcpy.QuadPart += afterMemcpy.QuadPart - beforeMemcpy.QuadPart ;
    mmsse.QuadPart += afterMemcpy_sse.QuadPart - beforeMemcpy_sse.QuadPart;
}

delete[] mas;

/*printf("Memcpy Time: %f\n", (afterMemcpy.QuadPart - beforeMemcpy.QuadPart) / (float)freq.QuadPart);
printf("SSE Memcpy Time: %f\n\n", (afterMemcpy_sse.QuadPart - beforeMemcpy_sse.QuadPart) / (float)freq.QuadPart);*/

printf("Memcpy Time: %f\n", mmcpy.QuadPart / ((float)freq.QuadPart * 10000));
printf("SSE Memcpy Time: %f\n\n", mmsse.QuadPart / ((float)freq.QuadPart * 10000));

system("pause");

}

Answer 1

這是因為第二個memcpy正在訪問緩存預熱的數據（第一個memcpy已預熱）。 您在5MB的區域內復制，然后再次在其中復制-L3緩存可能為6MB-12MB。 嘗試切換副本的順序，然后查看得到的結果。 :-)

Answer 2

您可能會看到緩存效果。 根據緩存的大小，您可能會在使用memcpy函數進行的首次測試中復制帶有冷陣列的mas數組的子集，然后在測試內置memcpy時看到熱緩存。

通常，在測量這樣的代碼的性能時，應平均多次運行，並通過測試比您的緩存大得多的數據集或故意小到足以適合緩存的數據集進行測試並預熱緩存，從而避免緩存影響測試。

VS2010 Memcpy快速魔術

問題描述

2 個解決方案

解決方案1
5 2011-09-08 23:27:02

解決方案2
3 已采納 2011-09-08 23:27:05

VS2010 Memcpy快速魔術

問題描述

2 個解決方案

解決方案1 5 2011-09-08 23:27:02

解決方案2 3 已采納 2011-09-08 23:27:05

解決方案1
5 2011-09-08 23:27:02

解決方案2
3 已采納 2011-09-08 23:27:05