matrix - 为什么cuSparse比cuBlas慢得多，因为稀疏矩阵乘法

关于管理费用

密集线性代数算法可以最佳地执行，因为处理器的设计是为了最有效地解决这样的系统。 考虑DGEMM操作（矩阵 - 矩阵乘法）：对于大型矩阵（即，矩阵不适合系统的任何高速缓存），它允许您使用理论峰值浮点性能的95％以上的处理器。 怎么样？

预取

最佳缓存使用率

矢量化（SSE，AVX）

流水线

在稀疏的LA算法中，只有非零元素及其相应的索引存储在存储器中：存储器访问实际上是间接的 。 因此，稀疏算法无法在相同的优化级别上利用硬件：我不知道在这种情况下的具体数字，但10％到20％不会很奇怪。

显而易见的是，对零的操作（在非存储元件上）根本不执行，导致操作量减少，所需存储量减少。

整数逻辑，条件有进一步的开销，但现代CPU在重叠整数和FP操作以及“推测执行”方面相当不错。 不幸的是，他们也可以防止矢量化，因此对于密集的情况也是如此。

[英]Why is Strassen matrix multiplication so much slower than standard matrix multiplication?

[英]Why is ordinary matrix multiplication here much slower than a self-implemented approach?

[英]Why Matrix Addition is slower than Matrix-Vector Multiplication in Eigen?

[英]Why matrix multiplication with SSE is slower?

[英]Sparse plus dense matrix operation using cuSPARSE

[英]Writing to a large matrix much slower than normal

[英]Scipy sparse matrix multiplication

[英]sparse matrix multiplication with python

[英]Sparse Matrix multiplication in Java

[英]why is filling a row of a matrix much slower than filling vector of the same size

为什么cuSparse比cuBlas慢得多，因为稀疏矩阵乘法