為每組獲取一個隨機樣本，並以分層樣本熊貓結束

Question

我正在使用這樣的數據框：

group    period
  A      20130101
  A      20130201
  .          .
  E      20130901
  E      20131001

假設我有 100 個不同的組和 10 個可能的日期，它們的分布如下： [.1,.05,.2,.05,.1,.1,.2,.05,.05,.1] 。 我需要為每組獲取一個樣本，因此最終樣本的 10% 來自第一期，5% 來自第二期，20% 來自第三期，依此類推。 我設法為每個組獲得了一個隨機樣本，但它嚴重傾斜，如下所示：

fn = lambda obj: obj.loc[np.random.choice(obj.index, 1, replace=False),:]
dfrd = df[['group','period']].groupby('group', as_index=False).apply(fn)
dfrd.index = [index[1] for index in dfrd.index]

那么，有沒有辦法做一些類似但分層的事情？ 謝謝

Answer 1

您可以使用np.random.choice p參數：

df1 = (df
      .groupby('grp')
      .apply(lambda x: np.random.choice(x['period'].values, size=1, p=prob)[0])
      .reset_index()
      .rename(columns={0:'period'}))

  grp      period
0   A  2013-01-03
1   B  2013-01-04
2   C  2013-01-04
3   D  2013-01-03

樣本數據

period = list(map(str, pd.date_range(start='20130101', freq='D', periods=10).date))
grp = sorted(['A','B','C','D']*10)
prob = [.1,.05,.2,.05,.1,.1,.2,.05,.05,.1]

df = pd.DataFrame({'grp': grp, 'period': period*4})

為每組獲取一個隨機樣本，並以分層樣本熊貓結束

問題描述

1 個解決方案

解決方案1
2 已采納 2020-01-21 15:45:05

為每組獲取一個隨機樣本，並以分層樣本熊貓結束

問題描述

1 個解決方案

解決方案1 2 已采納 2020-01-21 15:45:05

解決方案1
2 已采納 2020-01-21 15:45:05