[英]Optimizing a numpy array creation
我想優化我的代碼。 一個巨大的瓶頸在於創建一種小型 numpy 陣列(重復大量次)。 現在,我無法避免對 function 的調用次數(在我的情況下是數百萬次調用)。 我無法將所有這些調用矢量化在一起,因為不幸的是它們是問題定義的后續(它們是在每個獨立的內部循環的牛頓求解器中生成的)。 所以我的目標是減少在每次迭代中創建該矩陣所花費的時間。 即使是很小的收獲,最終也會產生很大的影響。
def compute_matrix(a, my_dict):
m = np.zeros(a, a)
m[0][0] = my_dict['value00']
m[0][1] = my_dict['value01']
m[1][1] = my_dict['value11']
m[1][3] = my_dict['value13']
m[1][4] = my_dict['value14']
# ... The array is very sparse, but not banded or with any regular pattern, see below for an example with values
m[34][35] = my_dict['value3435']
請注意,我簡化了示例,實際上,它看起來像:
m[idx['val0']][idx['val0']] = my_dict['val0']['value_a']
m[idx['val0']][idx['val1']] = my_dict['val0']['value_b']
其中 idx 是將 'val0' 鏈接到它在(方形)數組中的索引的字典,例如,idx['val0'] = 0 和 idx['val1'] = 1。
你會建議什么作為最好的策略(歡迎多種策略,我想優化一下,因為這是我遇到的最大的瓶頸,我花了 60% 的時間。)。
我的主要想法是為 function 使用 Cython/Numba,具體取決於每個(可能是 Cython)的易用性。 我過去曾使用 C-API 優化過代碼,但由於 numpy object,我不知道它如何真正應用在這里,而且無論如何開銷可能會太高,因為數組非常小(~ 40*40)。
數組中的非零值會改變,但零將始終保持零。 也許使用此屬性可行?
您是否可以在這里看到一個低懸的優化成果,或者 Cython 是我唯一真正的選擇? 還是說 Cython 根本就沒有多大幫助?
結束矩陣的一個例子:
[[-6.3e-10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.7e-11 0 6.5e-10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 -3.4e-06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8.0e-10 4.9e-04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 -4.0e-09 9.7e-13 0 0 0 0 0 0 4.9e-08 0 0 0 0 0 0 0 3.8e-06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 3.4e-06 1.3e-09 -4.9e-09 8.9e-13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 7.2e-10 -1.8e-09 5.3e-12 0 0 0 0 0 0 1.2e-09 0 0 0 0 0 0 0 1.9e-04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 9.0e-10 -7.6e-09 1.7e-12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 7.9e-10 -6.4e-10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.1e-06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 1.5e-09 0 -4.1e-09 1.3e-12 0 0 0 0 0 0 0 0 0 0 0 0 0 1.5e-12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 5.5e-10 -8.1e-09 1.6e-13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 9.1e-10 -3.2e-09 0 0 0 0 0 0 0 0 0 0 0 0 7.0e-10 5.9e-12 5.9e-12 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 -5.0e-08 9.1e-13 0 0 0 0 0 0 0 0 0 0 9.9e-06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 4.2e-10 -7.1e-09 5.9e-13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 0 1.0e-09 -3.5e-09 2.0e-12 0 0 0 0 0 0 0 0 0 1.9e-05 4.4e-04 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 0 0 1.3e-09 -6.8e-09 1.5e-12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 0 0 0 1.0e-09 -6.7e-10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -5.0e-09 1.8e-12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9.8e-10 -1.0e-09 0 0 0 0 1.1e-11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -3.7e-09 3.3e-12 0 0 1.2e-06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 2.4e-12 0 0 0 0 0 0 7.2e-13 0 0 0 0 0 0 0 0 2.9e-09 -3.8e-06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 5.4e-10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -4.9e-04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 3.3e-09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.1e-09 -1.9e-04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 4.2e-12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7.8e-10 0 0 0 0 -1.2e-06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 2.9e-09 1.6e-10 3.3e-13 0 0 0 0 0 0 0 0 0 0 0 0 -1.2e-05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 2.9e-10 0 0 0 0 0 0 0 0 0 0 0 0 0 -1.9e-05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 0 0 0 0 0 0 0 0 0 2.4e-09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -4.4e-04 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
[ 5.8e-12 7.9e-11 1.8e-10 2.7e-10 6.0e-11 3.5e-10 4.1e-11 4.1e-11 4.6e-10 3.0e-11 2.4e-11 3.9e-10 6.6e-11 3.8e-10 4.3e-11 2.6e-10 1.4e-11 5.3e-11 3.0e-10 9.0e-11 0 9.5e-11 4.4e-10 4.5e-10 4.5e-10 0 3.0e-01 1.2e+00 9.8e-01 9.5e-02 3.5e+00 2.6e-02 4.1e-02 2.7e-05 3.5e+00 4.0e-04 7.0e-03 4.2e-03]
[ 8.4e-13 0 2.7e-12 5.7e-12 1.7e-12 1.8e-11 2.1e-12 5.7e-13 0 7.7e-13 1.6e-13 0 0 8.0e-12 0 1.4e-11 1.1e-12 1.9e-12 1.5e-11 1.0e-11 0 1.1e-11 0 0 0 0 -3.0e-01 0 0 0 0 0 0 0 0 0 0 0 ]
[ 2.3e-14 0 7.5e-14 1.6e-13 4.9e-14 5.1e-13 5.7e-14 1.6e-14 0 2.1e-14 4.6e-15 0 0 2.2e-13 0 3.9e-13 3.0e-14 5.2e-14 4.1e-13 2.9e-13 0 3.0e-13 0 0 0 0 0 -1.2e+00 0 0 0 0 0 0 0 0 0 0 ]
[ 3.0e-13 0 9.7e-13 2.1e-12 6.3e-13 6.6e-12 7.4e-13 2.0e-13 0 2.8e-13 5.9e-14 0 0 2.9e-12 0 5.1e-12 3.9e-13 6.7e-13 5.3e-12 3.7e-12 0 3.9e-12 0 0 0 0 0 0 -9.8e-01 0 0 0 0 0 0 0 0 0 ]
[ 3.1e-13 0 9.9e-13 2.1e-12 6.4e-13 6.7e-12 7.6e-13 2.1e-13 0 2.8e-13 6.0e-14 0 0 2.9e-12 0 5.2e-12 4.0e-13 6.9e-13 5.4e-12 3.8e-12 0 4.0e-12 0 0 0 0 0 0 0 -9.5e-02 0 0 0 0 0 0 0 0 ]
[ 1.2e-13 0 3.7e-13 7.9e-13 2.4e-13 2.5e-12 2.8e-13 7.8e-14 0 1.1e-13 2.3e-14 0 0 1.1e-12 0 1.9e-12 1.5e-13 2.6e-13 2.0e-12 1.4e-12 0 1.5e-12 0 0 0 0 0 0 0 0 -3.5e+00 0 0 0 0 0 0 0 ]
[ 4.0e-13 0 1.3e-12 2.7e-12 8.2e-13 8.6e-12 9.7e-13 2.7e-13 0 3.6e-13 7.8e-14 0 0 3.8e-12 0 6.6e-12 5.1e-13 8.8e-13 6.9e-12 4.9e-12 0 5.2e-12 0 0 0 0 0 0 0 0 0 -2.6e-02 0 0 0 0 0 0 ]
[ 1.3e-11 1.8e-10 4.0e-10 6.2e-10 1.4e-10 7.9e-10 9.4e-11 9.4e-11 1.0e-09 6.8e-11 5.5e-11 9.0e-10 1.5e-10 8.6e-10 1.0e-10 6.0e-10 3.3e-11 1.2e-10 6.9e-10 2.1e-10 0 2.2e-10 1.0e-09 1.0e-09 1.0e-09 0 0 0 0 0 0 0 -4.1e-02 0 0 0 0 0 ]
[ 2.0e-11 2.8e-10 6.2e-10 9.6e-10 2.1e-10 1.2e-09 1.5e-10 1.4e-10 1.6e-09 1.0e-10 8.5e-11 1.4e-09 2.3e-10 1.3e-09 1.5e-10 9.2e-10 5.1e-11 1.9e-10 1.1e-09 3.2e-10 0 3.4e-10 1.6e-09 1.6e-09 1.6e-09 0 0 0 0 0 0 0 0 -2.7e-05 0 0 0 0 ]
[ 2.0e-14 2.8e-13 6.2e-13 9.5e-13 2.1e-13 1.2e-12 1.4e-13 1.4e-13 1.6e-12 1.0e-13 8.4e-14 1.4e-12 2.3e-13 1.3e-12 1.5e-13 9.1e-13 5.0e-14 1.9e-13 1.0e-12 3.1e-13 0 3.3e-13 1.5e-12 1.6e-12 1.6e-12 0 0 0 0 0 0 0 0 0 -3.5e+00 0 0 0 ]
[ 3.1e-11 4.2e-10 9.4e-10 1.4e-09 3.2e-10 1.8e-09 2.2e-10 2.2e-10 2.4e-09 1.6e-10 1.3e-10 2.1e-09 3.5e-10 2.0e-09 2.3e-10 1.4e-09 7.6e-11 2.8e-10 1.6e-09 4.8e-10 0 5.0e-10 2.3e-09 2.4e-09 2.4e-09 0 0 0 0 0 0 0 0 0 0 -4.0e-04 0 0 ]
[ 2.4e-12 3.3e-11 7.3e-11 1.1e-10 2.5e-11 1.4e-10 1.7e-11 1.7e-11 1.9e-10 1.2e-11 9.9e-12 1.6e-10 2.7e-11 1.6e-10 1.8e-11 1.1e-10 5.9e-12 2.2e-11 1.2e-10 3.7e-11 0 3.9e-11 1.8e-10 1.9e-10 1.9e-10 0 0 0 0 0 0 0 0 0 0 0 -7.0e-03 0 ]
[ 1.6e-11 2.2e-10 4.9e-10 7.6e-10 1.7e-10 9.7e-10 1.1e-10 1.1e-10 1.3e-09 8.3e-11 6.7e-11 1.1e-09 1.8e-10 1.1e-09 1.2e-10 7.3e-10 4.0e-11 1.5e-10 8.4e-10 2.5e-10 0 2.6e-10 1.2e-09 1.3e-09 1.3e-09 0 0 0 0 0 0 0 0 0 0 0 0 -4.2e-03]]
我正在為那些偶然發現這篇文章的人發布答案。
我很幸運,實際上,我的數據可以被矢量化,因為我能夠使用 F = Ax + B 之類的東西,A 和 B 為常數 numpy arrays,而不是在每一步都使用修改后的 x 來“從頭開始”定義 F我在做。 性能提升是巨大的。 來自@chumbaloo 的“強制矢量化方式”的想法是我最終用於大部分優化的想法。
所以,如果你覺得你不能矢量化但絕對需要優化,仍然嘗試找到一種矢量化的方法。 至少這是我的收獲。
我還使用了@tstanisl 和@expectedAn 給出的建議,即將字典移動到 numpy 數組中,然后再使用它進行密集的查找計算,這對我的代碼的另一部分也產生了很大的影響,允許我做一些矢量計算而不是 for 循環。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.