Pandas 数据框 - 对列值进行分组，然后随机化该列的新值

Question

我有一列 (X)，其中包含一些重复的值（几行具有相同的值，并且它们都已排序）。 我需要随机化该列的新值以测试一个问题。 所以我试过：

np.random.seed(RSEED)
df["X"] = np.random.randint(100, 500, df.shape[0])

但这还不够，我需要保留序列，我的意思是按相同的值分组，然后为该值的所有行随机分配一个新数字，并对原始列的所有分组值执行此操作。 例如

我开始寻找 Pandas 是否有内置的东西，我可以按pandas.DataFrame.groupBy分组，但找不到可以应用于同一组的pandas.DataFrame.random 。

Answer 1

简单的方法是使用 groupby 和 transform 来广播每组的随机整数

df.groupby('X')['X'].transform(lambda _: np.random.randint(100, 500))

0    137
1    137
2    .
3    .
4    335
5    335
Name: X, dtype: int64