标签[matrix-multiplication] - 堆栈内存溢出

为什么 MVP 在 DirectX 示例中被转置 - Why is the MVP being transposed in DirectX example

我也在我们的内部代码中发现了这一点，我正试图了解正在发生的事情。在以下代码中： https://github.com/microsoft/DirectX-Graphics-Samples/tree/master/Samples/Desktop/D3D12MeshShaders/src/Meshle ...

如何将 1x3 矩阵转换为一维数组 - How can I turn a 1x3 matrix into a one dimensional array

我正在制作一个 function 来计算给定两个向量时的点积。该代码稍后用于矩阵乘法 function。我遇到的问题是从矩阵乘法 function 传入的参数是 1x3 矩阵，为了将它们相乘，我需要使用 dot+=A[0,,i ]*B[0,i]。提交网站需要 dot+=A[i],B[i]，我不确 ...

如何计算 2D 和 3D 数组条目的乘积之和？ - How do I calculate the sum of products of entries of a 2D and 3D array?

设 $X \in \mathbb{R}^{M\times N}$ 为二维数组。设 $Y \in \mathbb{R}^{M \times N \times K$ 是一个 3 维数组。我在 Julia 中有这些数据 arrays。我想计算数字 $$ \sum_{k = 1}^{K} \sum_ ...

使用 Numba 沿 O 维度将 (N,N) 矩阵乘以 (N,M,O) 矩阵 - Multiply a (N,N) matrix by a (N,M,O) matrix along the O dimension with Numba

我正在尝试将大小为 $(N,N)$ 的矩阵 A 乘以大小为 $(N,M,O)$ 的矩阵 B 沿着 O 维度（即左乘所有“页面” B 沿 O 维度的 A)，使用 jitted numba function。我想出了这个解决方案：但是，这会返回警告NumbaPerformanceWarning: n ...

如何使用 SSE 内在函数（32 位浮点数）计算 2x2 矩阵乘以 2D 向量？（C++、Mac 和 Windows） - How to calculate 2x2 matrix multiplied by 2D vector using SSE intrinsics (32 bit floating points)? (C++, Mac and Windows)

我需要计算一个二维矩阵乘以二维向量。两者都使用 32 位浮点数。我希望使用 SSE（任何版本）来实现速度优化目的，因为我将使用它进行实时音频处理。所以我需要的公式如下：如果有意义的话，我正在考虑从 memory 读取整个矩阵作为 128 位浮点 SIMD（4 x 32 位浮点）。但是，如 ...

将 numpy einsum 运算写成特征张量 - Write numpy einsum operation as eigen tensors

赏金将在 3 天后到期。此问题的答案有资格获得+500声望赏金。 Niteya Shah想让更多人关注这个问题：一个可以生成最佳代码的工作实现，该代码由 GCC 或 clang 自动矢量化。我想将以下 numpy einsum 写为 Eigen Tensor opimport numpy ...

如何在将两个子矩阵相乘时获得性能提升？ - How to obtain performance enhancement while multiplying two sub-matrices?

我有一个程序将驻留在同一容器矩阵中的两个子矩阵相乘。我试图通过使用 OpenMP API 进行并行化来获得一些性能提升。下面是我使用的乘法算法。该算法按行访问两个输入子矩阵的元素，以增强空间局部性的缓存使用。可以使用哪些其他 OpenMP 指令从该简单算法中获得更好的性能？有没有其他指令 ...

使用 numpy.matmul() 进行矩阵乘法 - Matrix multiplication using numpy.matmul()

我正在尝试乘以 numpy arrays，它们都具有 (2000,2,2) 的形状。我希望结果数组也具有 (2000,2,2) 形状，其中第一个数组的 2000 (2,2) 个矩阵中的每一个矩阵乘以第二个数组的 2000 (2,2) 个矩阵。我尝试使用 np.matmul() 和 numpy.d ...

VBA UDF correlationmatrix - 不可能取平方根（在 Variant 类型上） - VBA UDF correlationmatrix - not possible of taking square root (on Variant type)

我创建了一个 function，它将只返回平方答案，并且不可能得到正确的答案，即当前的平方根答案。例如，在 excel 中，我的范围是 A1 = 2 & A2 = 3。如果 CorrelationMatrix 设置在第一行 (1, 0.25) 和第二行 (0.25, 1)，则使用 Cor ...

如何计算一个 4x4 矩阵桥（即 A * C = B，找到 C） - How to compute a 4x4 matrix bridge (i.e. A * C = B, find C)

我正在尝试实现一个 C++ function，给定 (4x4) 矩阵 A 和矩阵 B，可以生成矩阵 C，使得 A*C=B。经过一些研究，我制作了这个：这产生的结果是......有点正确。它产生正确的数字，但符号不同。这是 output：所以 B*C = A 对于数字，而不是符号。我正在 ...

如何在不影响第三轴的情况下沿两个轴旋转矩阵？ - How to rotate a matrix along two axis without affecting the third axis at all?

我有一个 object，它需要旋转两个轴（为简单起见，我们称它们为 X 轴和 Y 轴，但请理解它们可以完全任意）。所以，像这样：这样做时，我会围绕我旋转的两个轴的叉积进行不必要的旋转（例如，在上面的示例中，我会绕 z 轴或 0,0,1 进行一些（少量）旋转). 这是一个非常小的旋转量，但足够可 ...

C++中使用Eigen库进行矩阵向量积 - Performing Matrix Vector Product using Eigen library in C++

当我的变量的日期类型采用Eigen::MatrixXd和Eigen::VectorXd形式时，如何使用 C++ 中的Eigen库和“for 循环”执行矩阵向量积？注意：我不想使用直接将矩阵与向量相乘的内置* operator ，我想使用 for 循环并自己执行元素明智的操作当我尝试对Eigen:: ...

numpy 中的矩阵乘法与 python 中的正常 for 循环 - Matrix multiplication in numpy vs normal for loop in python

我考虑过使用 numpy 矩阵乘法与普通 for 循环方法检查矩阵乘法的时间差。我知道 numpy 会因为向量化而更快，但我无法使用如下简单的代码来证明它。在我的所有测试中，我得到 python 正常循环比 numpy 快。我在这里做错了什么？我的代码：我得到的结果是 ...

矩阵乘法缓存问题 - Matrix Multiplication Cache Issue

我有一个小的神经网络程序。我已经优化它以更快地训练，但我注意到反向传播部分花费的时间比前向传播长大约 10 倍。我当然看到唯一的主要区别是我非顺序地访问我的权重矩阵（与顺序相反，就像在前向传递中）。这会导致缓存未命中并扰乱我的性能。在前向传递中，我循环遍历当前层中的所有神经元，然后遍历所有输 ...

python中字典的稀疏矩阵乘法 - sparse matrix multipliction with dictionaris in python

稀疏矩阵是其大多数成员具有零值的矩阵。因此，为了节省内存和存储矩阵，可以方便地在以下配置中使用字典来表示它们：对于矩阵中不为零的每个单元格，将在表示坐标的字典中存储一个元组键单元格的值，值表示矩阵中单元格的值（一些类型为 int 或 float 的数字），通常在数学中，矩阵的索引从 1 开始。 ...

是否有使用 cuBLAS 将三个矩阵 A * B * C = D 相乘的最有效方法？ - Is there a most efficient way to multiply three matrices A * B * C = D using cuBLAS?

我想找到使用 cuBLAS 对三个矩阵进行多重处理的最有效方法。我当前的解决方案明显多次调用 cublasgemm 我不认为这是一个糟糕的解决方案。只是如果有某种方法可以处理单个内核/函数调用而不是 2 个，那会更好，因为单个内核可能会加快速度。我查看了cublasgemmBatched希望 ...

了解 NumPy 中参差不齐的嵌套序列的矩阵乘法 - Understanding matrix multiplication of ragged nested sequences in NumPy

我是 NumPy 的新手，我正在尝试迁移我在 MATLAB 中开发的一些代码，用于计算 2x2 传递函数。这是我写的代码片段。v = np.arange(-0.5, 0.5, 0.001) z = np.exp(-1j * 2 * np.pi * v); Hcoup0 = Hcoup(k0) # ...

如何防止 numpy matmul 溢出？ - How to prevent overflow in numpy matmul?

在 np.matmul 操作之后，x1 和 x2 的值在 np.int8 的范围内，该值高于 int8 范围，所以我将它存储到 int16 中，但我仍然得到不正确的值。有人可以解释一下为什么会这样吗？谢谢 ...

Numpy 数组乘法 - Numpy array muliplication

我有两个输入 arrays 和一个 output 数组，如下所示：我想做以下计算：我可以不做 for 循环就做吗，因为 for 循环在较大的矩阵中会花费很多时间所以目标是实现更快的方法 ...

在numpy中，将两个结构化矩阵简洁地相乘 - In numpy, multipy two structured matrices concisely

我有两个矩阵。第一个具有以下结构：其中1 、 0 、 a 、 b, c和d是标量。矩阵是 4 x 3 第二个只是一个 2 x 3 矩阵：其中r1和r2分别是第一行和第二行，每行有 3 个元素。我希望 output 是：这将是一个 4 x 9 矩阵。这类似于 Kronecker 产品，除 ...