標簽[matrix-multiplication] - 堆棧內存溢出

[英]Why is the MVP being transposed in DirectX example

我也在我們的內部代碼中發現了這一點，我正試圖了解正在發生的事情。在以下代碼中： https://github.com/microsoft/DirectX-Graphics-Samples/tree/master/Samples/Desktop/D3D12MeshShaders/src/Meshle ...

如何將 1x3 矩陣轉換為一維數組

[英]How can I turn a 1x3 matrix into a one dimensional array

我正在制作一個 function 來計算給定兩個向量時的點積。該代碼稍后用於矩陣乘法 function。我遇到的問題是從矩陣乘法 function 傳入的參數是 1x3 矩陣，為了將它們相乘，我需要使用 dot+=A[0,,i ]*B[0,i]。提交網站需要 dot+=A[i],B[i]，我不確 ...

如何計算 2D 和 3D 數組條目的乘積之和？

[英]How do I calculate the sum of products of entries of a 2D and 3D array?

設 $X \in \mathbb{R}^{M\times N}$ 為二維數組。設 $Y \in \mathbb{R}^{M \times N \times K$ 是一個 3 維數組。我在 Julia 中有這些數據 arrays。我想計算數字 $$ \sum_{k = 1}^{K} \sum_ ...

使用 Numba 沿 O 維度將 (N,N) 矩陣乘以 (N,M,O) 矩陣

[英]Multiply a (N,N) matrix by a (N,M,O) matrix along the O dimension with Numba

我正在嘗試將大小為 $(N,N)$ 的矩陣 A 乘以大小為 $(N,M,O)$ 的矩陣 B 沿着 O 維度（即左乘所有“頁面” B 沿 O 維度的 A)，使用 jitted numba function。我想出了這個解決方案：但是，這會返回警告NumbaPerformanceWarning: n ...

如何使用 SSE 內在函數（32 位浮點數）計算 2x2 矩陣乘以 2D 向量？（C++、Mac 和 Windows）

[英]How to calculate 2x2 matrix multiplied by 2D vector using SSE intrinsics (32 bit floating points)? (C++, Mac and Windows)

我需要計算一個二維矩陣乘以二維向量。兩者都使用 32 位浮點數。我希望使用 SSE（任何版本）來實現速度優化目的，因為我將使用它進行實時音頻處理。所以我需要的公式如下：如果有意義的話，我正在考慮從 memory 讀取整個矩陣作為 128 位浮點 SIMD（4 x 32 位浮點）。但是，如 ...

將 numpy einsum 運算寫成特征張量

[英]Write numpy einsum operation as eigen tensors

賞金將在 3 天后到期。此問題的答案有資格獲得+500聲望賞金。 Niteya Shah想讓更多人關注這個問題：一個可以生成最佳代碼的工作實現，該代碼由 GCC 或 clang 自動矢量化。我想將以下 numpy einsum 寫為 Eigen Tensor opimport numpy ...

如何在將兩個子矩陣相乘時獲得性能提升？

[英]How to obtain performance enhancement while multiplying two sub-matrices?

我有一個程序將駐留在同一容器矩陣中的兩個子矩陣相乘。我試圖通過使用 OpenMP API 進行並行化來獲得一些性能提升。下面是我使用的乘法算法。該算法按行訪問兩個輸入子矩陣的元素，以增強空間局部性的緩存使用。可以使用哪些其他 OpenMP 指令從該簡單算法中獲得更好的性能？有沒有其他指令 ...

使用 numpy.matmul() 進行矩陣乘法

[英]Matrix multiplication using numpy.matmul()

我正在嘗試乘以 numpy arrays，它們都具有 (2000,2,2) 的形狀。我希望結果數組也具有 (2000,2,2) 形狀，其中第一個數組的 2000 (2,2) 個矩陣中的每一個矩陣乘以第二個數組的 2000 (2,2) 個矩陣。我嘗試使用 np.matmul() 和 numpy.d ...

VBA UDF correlationmatrix - 不可能取平方根（在 Variant 類型上）

[英]VBA UDF correlationmatrix - not possible of taking square root (on Variant type)

我創建了一個 function，它將只返回平方答案，並且不可能得到正確的答案，即當前的平方根答案。例如，在 excel 中，我的范圍是 A1 = 2 & A2 = 3。如果 CorrelationMatrix 設置在第一行 (1, 0.25) 和第二行 (0.25, 1)，則使用 Cor ...

如何計算一個 4x4 矩陣橋（即 A * C = B，找到 C）

[英]How to compute a 4x4 matrix bridge (i.e. A * C = B, find C)

我正在嘗試實現一個 C++ function，給定 (4x4) 矩陣 A 和矩陣 B，可以生成矩陣 C，使得 A*C=B。經過一些研究，我制作了這個：這產生的結果是......有點正確。它產生正確的數字，但符號不同。這是 output：所以 B*C = A 對於數字，而不是符號。我正在 ...

如何在不影響第三軸的情況下沿兩個軸旋轉矩陣？

[英]How to rotate a matrix along two axis without affecting the third axis at all?

我有一個 object，它需要旋轉兩個軸（為簡單起見，我們稱它們為 X 軸和 Y 軸，但請理解它們可以完全任意）。所以，像這樣：這樣做時，我會圍繞我旋轉的兩個軸的叉積進行不必要的旋轉（例如，在上面的示例中，我會繞 z 軸或 0,0,1 進行一些（少量）旋轉). 這是一個非常小的旋轉量，但足夠可 ...

C++中使用Eigen庫進行矩陣向量積

[英]Performing Matrix Vector Product using Eigen library in C++

當我的變量的日期類型采用Eigen::MatrixXd和Eigen::VectorXd形式時，如何使用 C++ 中的Eigen庫和“for 循環”執行矩陣向量積？注意：我不想使用直接將矩陣與向量相乘的內置* operator ，我想使用 for 循環並自己執行元素明智的操作當我嘗試對Eigen:: ...

numpy 中的矩陣乘法與 python 中的正常 for 循環

[英]Matrix multiplication in numpy vs normal for loop in python

我考慮過使用 numpy 矩陣乘法與普通 for 循環方法檢查矩陣乘法的時間差。我知道 numpy 會因為向量化而更快，但我無法使用如下簡單的代碼來證明它。在我的所有測試中，我得到 python 正常循環比 numpy 快。我在這里做錯了什么？我的代碼：我得到的結果是 ...

矩陣乘法緩存問題

[英]Matrix Multiplication Cache Issue

我有一個小的神經網絡程序。我已經優化它以更快地訓練，但我注意到反向傳播部分花費的時間比前向傳播長大約 10 倍。我當然看到唯一的主要區別是我非順序地訪問我的權重矩陣（與順序相反，就像在前向傳遞中）。這會導致緩存未命中並擾亂我的性能。在前向傳遞中，我循環遍歷當前層中的所有神經元，然后遍歷所有輸 ...

python中字典的稀疏矩陣乘法

[英]sparse matrix multipliction with dictionaris in python

稀疏矩陣是其大多數成員具有零值的矩陣。因此，為了節省內存和存儲矩陣，可以方便地在以下配置中使用字典來表示它們：對於矩陣中不為零的每個單元格，將在表示坐標的字典中存儲一個元組鍵單元格的值，值表示矩陣中單元格的值（一些類型為 int 或 float 的數字），通常在數學中，矩陣的索引從 1 開始。 ...

是否有使用 cuBLAS 將三個矩陣 A * B * C = D 相乘的最有效方法？

[英]Is there a most efficient way to multiply three matrices A * B * C = D using cuBLAS?

我想找到使用 cuBLAS 對三個矩陣進行多重處理的最有效方法。我當前的解決方案明顯多次調用 cublasgemm 我不認為這是一個糟糕的解決方案。只是如果有某種方法可以處理單個內核/函數調用而不是 2 個，那會更好，因為單個內核可能會加快速度。我查看了cublasgemmBatched希望 ...

了解 NumPy 中參差不齊的嵌套序列的矩陣乘法

[英]Understanding matrix multiplication of ragged nested sequences in NumPy

我是 NumPy 的新手，我正在嘗試遷移我在 MATLAB 中開發的一些代碼，用於計算 2x2 傳遞函數。這是我寫的代碼片段。v = np.arange(-0.5, 0.5, 0.001) z = np.exp(-1j * 2 * np.pi * v); Hcoup0 = Hcoup(k0) # ...

如何防止 numpy matmul 溢出？

[英]How to prevent overflow in numpy matmul?

在 np.matmul 操作之后，x1 和 x2 的值在 np.int8 的范圍內，該值高於 int8 范圍，所以我將它存儲到 int16 中，但我仍然得到不正確的值。有人可以解釋一下為什么會這樣嗎？謝謝 ...

Numpy 數組乘法

[英]Numpy array muliplication

我有兩個輸入 arrays 和一個 output 數組，如下所示：我想做以下計算：我可以不做 for 循環就做嗎，因為 for 循環在較大的矩陣中會花費很多時間所以目標是實現更快的方法 ...

在numpy中，將兩個結構化矩陣簡潔地相乘

[英]In numpy, multipy two structured matrices concisely

我有兩個矩陣。第一個具有以下結構：其中1 、 0 、 a 、 b, c和d是標量。矩陣是 4 x 3 第二個只是一個 2 x 3 矩陣：其中r1和r2分別是第一行和第二行，每行有 3 個元素。我希望 output 是：這將是一個 4 x 9 矩陣。這類似於 Kronecker 產品，除 ...