[英]Why is the MVP being transposed in DirectX example
我也在我們的內部代碼中發現了這一點,我正試圖了解正在發生的事情。 在以下代碼中: https://github.com/microsoft/DirectX-Graphics-Samples/tree/master/Samples/Desktop/D3D12MeshShaders/src/Meshle ...
[英]Why is the MVP being transposed in DirectX example
我也在我們的內部代碼中發現了這一點,我正試圖了解正在發生的事情。 在以下代碼中: https://github.com/microsoft/DirectX-Graphics-Samples/tree/master/Samples/Desktop/D3D12MeshShaders/src/Meshle ...
[英]How can I turn a 1x3 matrix into a one dimensional array
我正在制作一個 function 來計算給定兩個向量時的點積。 該代碼稍后用於矩陣乘法 function。我遇到的問題是從矩陣乘法 function 傳入的參數是 1x3 矩陣,為了將它們相乘,我需要使用 dot+=A[0,,i ]*B[0,i]。 提交網站需要 dot+=A[i],B[i],我不確 ...
[英]How do I calculate the sum of products of entries of a 2D and 3D array?
設 $X \in \mathbb{R}^{M\times N}$ 為二維數組。 設 $Y \in \mathbb{R}^{M \times N \times K$ 是一個 3 維數組。 我在 Julia 中有這些數據 arrays。 我想計算數字 $$ \sum_{k = 1}^{K} \sum_ ...
[英]Multiply a (N,N) matrix by a (N,M,O) matrix along the O dimension with Numba
我正在嘗試將大小為 $(N,N)$ 的矩陣 A 乘以大小為 $(N,M,O)$ 的矩陣 B 沿着 O 維度(即左乘所有“頁面” B 沿 O 維度的 A),使用 jitted numba function。 我想出了這個解決方案: 但是,這會返回警告NumbaPerformanceWarning: n ...
[英]How to calculate 2x2 matrix multiplied by 2D vector using SSE intrinsics (32 bit floating points)? (C++, Mac and Windows)
我需要計算一個二維矩陣乘以二維向量。 兩者都使用 32 位浮點數。 我希望使用 SSE(任何版本)來實現速度優化目的,因為我將使用它進行實時音頻處理。 所以我需要的公式如下: 如果有意義的話,我正在考慮從 memory 讀取整個矩陣作為 128 位浮點 SIMD(4 x 32 位浮點)。 但是,如 ...
[英]Write numpy einsum operation as eigen tensors
賞金將在 3 天后到期。 此問題的答案有資格獲得+500聲望賞金。 Niteya Shah想讓更多人關注這個問題: 一個可以生成最佳代碼的工作實現,該代碼由 GCC 或 clang 自動矢量化。 我想將以下 numpy einsum 寫為 Eigen Tensor opimport numpy ...
[英]How to obtain performance enhancement while multiplying two sub-matrices?
我有一個程序將駐留在同一容器矩陣中的兩個子矩陣相乘。 我試圖通過使用 OpenMP API 進行並行化來獲得一些性能提升。 下面是我使用的乘法算法。 該算法按行訪問兩個輸入子矩陣的元素,以增強空間局部性的緩存使用。 可以使用哪些其他 OpenMP 指令從該簡單算法中獲得更好的性能? 有沒有其他指令 ...
[英]Matrix multiplication using numpy.matmul()
我正在嘗試乘以 numpy arrays,它們都具有 (2000,2,2) 的形狀。 我希望結果數組也具有 (2000,2,2) 形狀,其中第一個數組的 2000 (2,2) 個矩陣中的每一個矩陣乘以第二個數組的 2000 (2,2) 個矩陣。 我嘗試使用 np.matmul() 和 numpy.d ...
[英]VBA UDF correlationmatrix - not possible of taking square root (on Variant type)
我創建了一個 function,它將只返回平方答案,並且不可能得到正確的答案,即當前的平方根答案。 例如,在 excel 中,我的范圍是 A1 = 2 & A2 = 3。如果 CorrelationMatrix 設置在第一行 (1, 0.25) 和第二行 (0.25, 1),則使用 Cor ...
[英]How to compute a 4x4 matrix bridge (i.e. A * C = B, find C)
我正在嘗試實現一個 C++ function,給定 (4x4) 矩陣 A 和矩陣 B,可以生成矩陣 C,使得 A*C=B。 經過一些研究,我制作了這個: 這產生的結果是......有點正確。 它產生正確的數字,但符號不同。 這是 output: 所以 B*C = A 對於數字,而不是符號。 我正在 ...
[英]How to rotate a matrix along two axis without affecting the third axis at all?
我有一個 object,它需要旋轉兩個軸(為簡單起見,我們稱它們為 X 軸和 Y 軸,但請理解它們可以完全任意)。 所以,像這樣: 這樣做時,我會圍繞我旋轉的兩個軸的叉積進行不必要的旋轉(例如,在上面的示例中,我會繞 z 軸或 0,0,1 進行一些(少量)旋轉). 這是一個非常小的旋轉量,但足夠可 ...
[英]Performing Matrix Vector Product using Eigen library in C++
當我的變量的日期類型采用Eigen::MatrixXd和Eigen::VectorXd形式時,如何使用 C++ 中的Eigen庫和“for 循環”執行矩陣向量積? 注意:我不想使用直接將矩陣與向量相乘的內置* operator ,我想使用 for 循環並自己執行元素明智的操作當我嘗試對Eigen:: ...
[英]Matrix multiplication in numpy vs normal for loop in python
我考慮過使用 numpy 矩陣乘法與普通 for 循環方法檢查矩陣乘法的時間差。 我知道 numpy 會因為向量化而更快,但我無法使用如下簡單的代碼來證明它。 在我的所有測試中,我得到 python 正常循環比 numpy 快。 我在這里做錯了什么? 我的代碼: 我得到的結果是 ...
[英]Matrix Multiplication Cache Issue
我有一個小的神經網絡程序。 我已經優化它以更快地訓練,但我注意到反向傳播部分花費的時間比前向傳播長大約 10 倍。 我當然看到唯一的主要區別是我非順序地訪問我的權重矩陣(與順序相反,就像在前向傳遞中)。 這會導致緩存未命中並擾亂我的性能。 在前向傳遞中,我循環遍歷當前層中的所有神經元,然后遍歷所有輸 ...
[英]sparse matrix multipliction with dictionaris in python
稀疏矩陣是其大多數成員具有零值的矩陣。 因此,為了節省內存和存儲矩陣,可以方便地在以下配置中使用字典來表示它們:對於矩陣中不為零的每個單元格,將在表示坐標的字典中存儲一個元組鍵單元格的值,值表示矩陣中單元格的值(一些類型為 int 或 float 的數字),通常在數學中,矩陣的索引從 1 開始。 ...
[英]Is there a most efficient way to multiply three matrices A * B * C = D using cuBLAS?
我想找到使用 cuBLAS 對三個矩陣進行多重處理的最有效方法。 我當前的解決方案明顯多次調用 cublasgemm 我不認為這是一個糟糕的解決方案。 只是如果有某種方法可以處理單個內核/函數調用而不是 2 個,那會更好,因為單個內核可能會加快速度。 我查看了cublasgemmBatched希望 ...
[英]Understanding matrix multiplication of ragged nested sequences in NumPy
我是 NumPy 的新手,我正在嘗試遷移我在 MATLAB 中開發的一些代碼,用於計算 2x2 傳遞函數。 這是我寫的代碼片段。v = np.arange(-0.5, 0.5, 0.001) z = np.exp(-1j * 2 * np.pi * v); Hcoup0 = Hcoup(k0) # ...
[英]How to prevent overflow in numpy matmul?
在 np.matmul 操作之后,x1 和 x2 的值在 np.int8 的范圍內,該值高於 int8 范圍,所以我將它存儲到 int16 中,但我仍然得到不正確的值。 有人可以解釋一下為什么會這樣嗎? 謝謝 ...
[英]Numpy array muliplication
我有兩個輸入 arrays 和一個 output 數組,如下所示: 我想做以下計算: 我可以不做 for 循環就做嗎,因為 for 循環在較大的矩陣中會花費很多時間所以目標是實現更快的方法 ...
[英]In numpy, multipy two structured matrices concisely
我有兩個矩陣。 第一個具有以下結構: 其中1 、 0 、 a 、 b, c和d是標量。 矩陣是 4 x 3 第二個只是一個 2 x 3 矩陣: 其中r1和r2分別是第一行和第二行,每行有 3 個元素。 我希望 output 是: 這將是一個 4 x 9 矩陣。 這類似於 Kronecker 產品,除 ...