matrix - 為什么cuSparse比cuBlas慢得多，因為稀疏矩陣乘法

關於管理費用

密集線性代數算法可以最佳地執行，因為處理器的設計是為了最有效地解決這樣的系統。 考慮DGEMM操作（矩陣 - 矩陣乘法）：對於大型矩陣（即，矩陣不適合系統的任何高速緩存），它允許您使用理論峰值浮點性能的95％以上的處理器。 怎么樣？

預取

最佳緩存使用率

矢量化（SSE，AVX）

流水線

在稀疏的LA算法中，只有非零元素及其相應的索引存儲在存儲器中：存儲器訪問實際上是間接的 。 因此，稀疏算法無法在相同的優化級別上利用硬件：我不知道在這種情況下的具體數字，但10％到20％不會很奇怪。

顯而易見的是，對零的操作（在非存儲元件上）根本不執行，導致操作量減少，所需存儲量減少。

整數邏輯，條件有進一步的開銷，但現代CPU在重疊整數和FP操作以及“推測執行”方面相當不錯。 不幸的是，他們也可以防止矢量化，因此對於密集的情況也是如此。

[英]Why is Strassen matrix multiplication so much slower than standard matrix multiplication?

[英]Why is ordinary matrix multiplication here much slower than a self-implemented approach?

[英]Why Matrix Addition is slower than Matrix-Vector Multiplication in Eigen?

[英]Why matrix multiplication with SSE is slower?

[英]Sparse plus dense matrix operation using cuSPARSE

[英]Writing to a large matrix much slower than normal

[英]Scipy sparse matrix multiplication

[英]sparse matrix multiplication with python

[英]Sparse Matrix multiplication in Java

[英]why is filling a row of a matrix much slower than filling vector of the same size

為什么cuSparse比cuBlas慢得多，因為稀疏矩陣乘法