純 python 比 numpy 快用於數據類型轉換

Question

原諒我的無知。

如果 numpy 提供了使計算速度更快的矢量化操作，那么對於數據類型轉換來說，純 python 的速度幾乎快 8 倍？

例如

a = np.random.randint(0,500,100).astype(str)
b = np.random.randint(0,500,100).astype(str)
c = np.random.randint(0,500,100).astype(str)

def A(a,b,c):
    for i,j,k in zip(a,b,c):
        d,e,f = int(i), int(j), int(k)
        r = d+e-f
    return 

def B(a,b,c):
    for i,j,k in zip(a,b,c):
        d,e,f  = np.array([i,j,k]).astype(int)
        r = d+e-f
    return

然后，

%%timeit 
A(a,b,c)

每個循環 249 µs ± 3.13 µs（7 次運行的平均值 ± 標准偏差，每次 1000 個循環）

%%timeit
B(a,b,c)

每個循環 1.87 毫秒 ± 4.08 微秒（平均值 ± 標准偏差。7 次運行，每次 1000 次循環）

謝謝你，愛麗兒

Answer 1

是的，NumPy確實提供了矢量化操作，使計算比普通的 Python 代碼更快。 但是，您沒有使用它們。

NumPy 旨在跨整個數據集執行操作，跨數據集塊的重復操作不多。 后者導致在 Python 級別進行迭代，這將增加運行時間。

您的主要問題是您使用的唯一“矢量化”操作是astype ，但您一次將其應用於三個元素，並且仍然像天真的 Python 解決方案一樣循環。 再加上在循環的每次迭代中創建 numpy arrays 會產生額外的開銷，難怪您嘗試使用 numpy 會更慢。

在微小的數據集上，Python可以更快，因為 NumPy 有創建 arrays 的開銷，將對象傳入和傳出三個元素看看你正在使用的鑄造操作。

%timeit np.array(['1', '2', '3']).astype(int)
5.25 µs ± 89.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%timeit np.array(['1', '2', '3'])
1.62 µs ± 42.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

超過四分之一的運行時間僅來自分配數組：將此與您的純 Python 版本進行比較：

%timeit a, b, c = int('1'), int('2'), int('3')
659 ns ± 50.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

因此，如果您只對這種大小的塊進行操作，Python 將擊敗 NumPy。

但是您的元素不止三個，因此 NumPy可用於顯着加快代碼速度，但您需要改變處理問題的思維方式。 與其關注如何將操作應用於單個標量，不如考慮如何將其應用於arrays 。

為了向量化這個問題，一般的想法是：

創建一個包含所有值的數組
使用單個astype調用將整個數組轉換為int 。
提前進行元素操作以將所需的算術應用於數組。

它最終看起來像這樣：

def vectorized(a, b, c):
    u = np.array([a, b, c]).astype(int)
    return u[0] + u[1] - u[2]

一旦您比較了正確使用 NumPy 的兩種方法，您將開始看到性能大幅提升。

def python_loop(a, b, c):
    out = []
    for i,j,k in zip(a,b,c):
        d,e,f = int(i), int(j), int(k)
        out.append(d+e-f)
    return out

a, b, c = np.random.randint(0, 500, (3, 100_000)).astype(str)

In [255]: %timeit vectorized(a, b, c)
181 ms ± 6.07 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [256]: %timeit python_loop(a, b, c)
206 ms ± 7.97 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

>>> np.array_equal(python_loop(a, b, c), vectorized(a, b, c))
True

從字符串轉換為整數並不是 NumPy 比純 Python 做得快得多，從時序中可以看出，兩者相當接近。 但是，通過應用矢量化方法，比較至少要公平得多。

純 python 比 numpy 快用於數據類型轉換

問題描述

1 個解決方案

解決方案1
8 已采納 2019-11-20 19:21:08

純 python 比 numpy 快用於數據類型轉換

問題描述

1 個解決方案

解決方案1 8 已采納 2019-11-20 19:21:08

解決方案1
8 已采納 2019-11-20 19:21:08