簡體 English 中英

3D向量的SSE對齊

[英]SSE alignment of 3D vector

原文 2016-05-22 00:34:40 0 1 c++/ memory/ vector/ 3d/ sse

我希望確保將SSE用於3D（96位）浮點矢量的算術運算。 但是，我已經讀到了關於必要內容的相互矛盾的觀點。

有些文章/帖子說我需要使用4D向量並“忽略”第4個元素，有些說我必須用__declspec(align(16))類的東西裝飾我的類，並重寫new運算符，還有一些說編譯器很聰明足以為我調整事物（我真的希望這是事實！）。

我正在使用Eigen庫，但發現“不受支持的” AlignedVector3類不適合用於此目的（例如，按組件划分時被零錯誤除， lpNorm函數包括第4個虛擬元素）。

我讀過的很多文章都已經有好幾年了，因此我希望現代的編譯器/ SSE版本/ CPU可以為我對齊數據，或者使用非16字節對齊的數據。 任何對此的最新知識將不勝感激！

1 個解決方案

實際上，我們在工作中使用SIMD，也許我可以就此提供您的反饋。 對齊是處理SIMD時必須注意的事項，這是為了確保高速緩存行對齊。 但是我不確定如果它不對齊或者CPU是否仍然能夠管理它是否仍然會導致崩潰（例如，以前不對齊的標量類型，它導致了崩潰，現在CPU處理了它，但是它減慢了速度）表演）。 也許您可以在這里查看SSE，內在函數和對齊方式對於該問題的對齊方式部分似乎有很好的答案。

實際上，即使實際上它是4D矢量，您也將其用作3D矢量，但這並不是一個很好的做法，因為您不會從SIMD指令的全部性能中受益。 匹配的最佳方法是使用數組結構（SOA）。

注意：我假設將128位SIMD寄存器映射到4個標量類型（整數或浮點）

例如，如果您有4個3D點（或矢量），則按照自己的方式，將有4個4D矢量，而忽略每個點的第4個分量。 總共您將獲得4 * 4個值。

通過使用SOA，您將擁有3個SIMD 128位（12個值）寄存器，並且將通過以下方式存儲點。 SIMD