簡體   English   中英

AVX512 中“屏蔽”商店的粒度是多少?

[英]What is the granularity of “masked” stores in AVX512?

假設您調用_mm512_mask_store_ps ,從 CPU 的寫入緩沖區的角度來看,它是作為大小為 64 字節的存儲執行(帶有某種掩碼)還是在內部作為大小為 4 字節的多個存儲執行?

為了防止存儲到加載轉發停滯,必須將存儲的粒度(大小)與后續加載到同一內存位置的粒度相匹配。 希望這個問題是有道理的,我不是 CPU 架構專家。

正如 Iwillnotexist 所引用的:

如果掩碼不全為 1 或全為 0,則依賴於掩碼存儲的加載必須等到存儲數據寫入緩存。 如果掩碼全部為 1,則數據可以從掩碼存儲轉發到相關負載。 如果掩碼全部為 0,則負載不依賴於掩碼存儲。

因此,掩碼商店沒有從商店到加載的轉發,除非掩碼全是 1(表現得像常規商店)或全零(微不足道)。 在屏蔽存儲之后加載通常會等待數據發送到緩存,因此它應該非常昂貴。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM