[英]Pandas data frame - Group a column values then Randomize new values of that column
我有一列 (X),其中包含一些重复的值(几行具有相同的值,并且它们都已排序)。 我需要随机化该列的新值以测试一个问题。 所以我试过:
np.random.seed(RSEED)
df["X"] = np.random.randint(100, 500, df.shape[0])
但这还不够,我需要保留序列,我的意思是按相同的值分组,然后为该值的所有行随机分配一个新数字,并对原始列的所有分组值执行此操作。 例如
X | 新 X(随机) |
---|---|
210 | 500 |
210 | 500 |
. | . |
. | . |
340 | 100 |
340 | 100 |
. | . |
. | . |
我开始寻找 Pandas 是否有内置的东西,我可以按pandas.DataFrame.groupBy
分组,但找不到可以应用于同一组的pandas.DataFrame.random
。
简单的方法是使用 groupby 和 transform 来广播每组的随机整数
df.groupby('X')['X'].transform(lambda _: np.random.randint(100, 500))
0 137
1 137
2 .
3 .
4 335
5 335
Name: X, dtype: int64
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.