如何從單個 pandas dataframe 列的值中選擇大小為 n 的隨機樣本，重復值最多出現 2 次？

Question

我的 dataframe 看起來像這樣：

Identifier       Strain     Other columns, etc.
1                  A
2                  C
3                  D
4                  B
5                  A
6                  C
7                  C
8                  B
9                  D
10                 A
11                 D
12                 D

我想隨機選擇 n 行，同時保持應變值的多樣性。 例如，我想要一組 6 人，所以我希望我的最后幾行至少包括每種菌株中的一種，其中兩種菌株出現兩次。

我嘗試將 Strain 列轉換為 numpy 數組並使用方法 random.choice 但似乎沒有運行。 我也嘗試過 using.sample 但它不能最大限度地提高應變多樣性。

這是我最新的嘗試，它按順序輸出大小為 7 的樣本（標識符 0-7），並且菌株都是相同的。

randomsample = df[df.Strain == np.random.choice(df['Strain'].unique())].reset_index(drop=True)

Answer 1

我相信 numpy 中有一些東西可以做到這一點，但不記得是哪個。 這是一個相當快的方法：

隨機打亂數據
枚舉每組中的行
按上面的枚舉排序
切片前n行

所以在代碼中：

n = 6

df = df.sample(frac=1)                      # step 1 
enums = df.groupby('Strain').cumcount()     # step 2 
        
orders = np.argsort(enums)                  # step 3
samples = df.iloc[orders[:n]]               # step 4

Output：

   Identifier Strain  Other columns, etc.
2           3      D                  NaN
7           8      B                  NaN
0           1      A                  NaN
5           6      C                  NaN
4           5      A                  NaN
8           9      D                  NaN

如何從單個 pandas dataframe 列的值中選擇大小為 n 的隨機樣本，重復值最多出現 2 次？

問題描述

1 個解決方案

解決方案1
2 已采納 2021-03-20 01:51:10

如何從單個 pandas dataframe 列的值中選擇大小為 n 的隨機樣本，重復值最多出現 2 次？

問題描述

1 個解決方案

解決方案1 2 已采納 2021-03-20 01:51:10

解決方案1
2 已采納 2021-03-20 01:51:10