給定一系列 bin 概率，如何生成 bin 計數的隨機樣本？

Question

我有一個整數，需要根據概率分布分成多個 bin。 例如，如果我有N=100對象進入[0.02, 0.08, 0.16, 0.29, 0.45]那么你可能會得到[1, 10, 20, 25, 44] 。

import numpy as np
# sample distribution
d = np.array([x ** 2 for x in range(1,6)], dtype=float)
d = d / d.sum()
dcs = d.cumsum()
bins = np.zeros(d.shape)
N = 100
for roll in np.random.rand(N):
    # grab the first index that the roll satisfies
    i = np.where(roll < dcs)[0][0]  
    bins[i] += 1

實際上，N 和我的 bin 數量非常大，因此循環並不是真正可行的選擇。 有什么方法可以矢量化此操作以加快速度嗎？

Answer 1

您可以通過獲取 cumsum 將您的 PDF 轉換為 CDF，使用它來定義一組介於 0 和 1 之間的 bin，然后使用這些 bin 來計算N長隨機均勻向量的直方圖：

cdf = np.cumsum([0, 0.02, 0.08, 0.16, 0.29, 0.45])     # leftmost bin edge = 0
counts, edges = np.histogram(np.random.rand(100), bins=cdf)

print(counts)
# [ 4,  8, 16, 30, 42]

Answer 2

可以使用np.bincount用於合並動作地連同np.searchsorted執行的等效roll < dcs操作。 這是實現這些承諾的實現 -

bins = np.bincount(np.searchsorted(dcs,np.random.rand(N),'right'))

使用給定參數的運行時測試 -

In [72]: %%timeit
    ...: for roll in np.random.rand(N):
    ...:     # grab the first index that the roll satisfies
    ...:     i = np.where(roll < dcs)[0][0]  
    ...:     bins[i] += 1
    ...: 
1000 loops, best of 3: 721 µs per loop

In [73]: %%timeit
    ...: np.bincount(np.searchsorted(dcs,np.random.rand(N),'right'))
    ...: 
100000 loops, best of 3: 13.5 µs per loop

Answer 3

另一種方法來做到這一點：

import numpy as np

p = [0.02, 0.08, 0.16, 0.29, 0.45]
np.bincount(np.random.choice(range(len(p)), size=100, p=p), minlength=len(p))
# array([ 1,  6, 16, 25, 52])

似乎不需要分配長度為 100 的數組，但我還沒有在 numpy 中看到避免它的方法。

給定一系列 bin 概率，如何生成 bin 計數的隨機樣本？

問題描述

3 個解決方案

解決方案1
5 已采納 2015-07-30 18:15:56

解決方案2
2 2015-07-31 05:19:45

解決方案3
0 2020-05-31 03:15:29

給定一系列 bin 概率，如何生成 bin 計數的隨機樣本？

問題描述

3 個解決方案

解決方案1 5 已采納 2015-07-30 18:15:56

解決方案2 2 2015-07-31 05:19:45

解決方案3 0 2020-05-31 03:15:29

解決方案1
5 已采納 2015-07-30 18:15:56

解決方案2
2 2015-07-31 05:19:45

解決方案3
0 2020-05-31 03:15:29