![](/img/trans.png)
[英]Pandas dataframe, select n random rows based on number of unique values
[英]Pandas: How to assign random number based on unique column values
我有一個包含“組”和“郵政編碼”列的大型數據集。 下面給出了一個 df 的示例:
group postcode
group_1 WC2E 8BU
group_1 WC2E 8BU
group_1 WC2E 8BU
group_2 WC2E 8BU
group_2 WC2E 8BU
group_2 WC2E 8BU
group_2 WC1A 1DD
group_2 WC1A 1DD
group_2 WC1A 1DD
group_2 WC1A 1DD
1488087 WC1A 1DD
1488087 WC1A 1DD
我正在嘗試創建一個名為“random_val”的新列,為唯一組中的每個匹配郵政編碼分配一個隨機統一編號,用於“組”列中沒有數字的行。 我的代碼如下所示:
df.loc[~df['group'].astype(str).str.isdigit(), 'random_val'] = df['postcode'].map(dict(zip(df['postcode'].unique(), np.random.uniform(0, 1, size=len(self.data['postcode'].unique())))))
目前,此代碼為唯一的郵政編碼分配一個唯一的隨機數,無論它屬於哪個組:
group postcode random_val
group_1 WC2E 8BU 0.210917735
group_1 WC2E 8BU 0.210917735
group_1 WC2E 8BU 0.210917735
group_2 WC2E 8BU 0.210917735
group_2 WC2E 8BU 0.210917735
group_2 WC2E 8BU 0.210917735
group_2 WC1A 1DD 0.55733542
group_2 WC1A 1DD 0.55733542
group_2 WC1A 1DD 0.55733542
group_2 WC1A 1DD 0.55733542
1488087 WC1A 1DD
1488087 WC1A 1DD
但是,我希望隨機數對郵政編碼和組是唯一的:
group postcode random_val
group_1 WC2E 8BU 0.210917735
group_1 WC2E 8BU 0.210917735
group_1 WC2E 8BU 0.210917735
group_2 WC2E 8BU 0.494920676
group_2 WC2E 8BU 0.494920676
group_2 WC2E 8BU 0.494920676
group_2 WC1A 1DD 0.55733542
group_2 WC1A 1DD 0.55733542
group_2 WC1A 1DD 0.55733542
group_2 WC1A 1DD 0.55733542
1488087 WC1A 1DD
1488087 WC1A 1DD
正在努力弄清楚如何做到這一點。 任何幫助表示贊賞。 謝謝
您可以在此處利用 pandas alignment。
df.set_index('group',inplace=True)
unique_idx = df.index[~df.index.str.isdigit()].unique()
s = pd.Series(np.random.uniform(0,1,len(unique_idx)) , index =unique_idx)
df['random_value'] = s
df.reset_index()
group postcode random_value
0 group_1 WC2E 8BU 0.232501
1 group_1 WC2E 8BU 0.232501
2 group_1 WC2E 8BU 0.232501
3 group_2 WC2E 8BU 0.242696
4 group_2 WC2E 8BU 0.242696
5 group_2 WC2E 8BU 0.242696
6 group_2 WC1A 1DD 0.242696
7 group_2 WC1A 1DD 0.242696
8 group_2 WC1A 1DD 0.242696
9 group_2 WC1A 1DD 0.242696
10 1488087 WC1A 1DD NaN
11 1488087 WC1A 1DD NaN
這是一個解決方案:
def random_val(x):
return pd.Series([np.random.uniform(0, 1)] * x.size)
df["dummy"] = 1
df["random_val"] = df.groupby(["group", "postcode"])["dummy"].transform(random_val)
df.loc[df['group'].astype(str).str.isdigit(), "random_val"] = None
結果是:
group postcode dummy random_val
0 group_1 WC2E 8BU 1 0.781711
1 group_1 WC2E 8BU 1 0.781711
2 group_1 WC2E 8BU 1 0.781711
3 group_2 WC2E 8BU 1 0.107743
4 group_2 WC2E 8BU 1 0.107743
5 group_2 WC2E 8BU 1 0.107743
6 group_2 WC1A 1DD 1 0.103295
7 group_2 WC1A 1DD 1 0.103295
8 group_2 WC1A 1DD 1 0.103295
9 group_2 WC1A 1DD 1 0.103295
10 1488087 WC1A 1DD 1 NaN
11 1488087 WC1A 1DD 1 NaN
散列兩列可能是最簡單的解決方案:
df['hash'] = pd.Series((hash(tuple(row)) for _, row in df.iterrows()))
group postcode hash
0 group_1 WC2E 8BU -8918045538474016779
1 group_1 WC2E 8BU -8918045538474016779
2 group_1 WC2E 8BU -8918045538474016779
3 group_2 WC2E 8BU -6943464964421442707
4 group_2 WC2E 8BU -6943464964421442707
5 group_2 WC2E 8BU -6943464964421442707
6 group_2 WC1A 1DD -357652478068898330
7 group_2 WC1A 1DD -357652478068898330
8 group_2 WC1A 1DD -357652478068898330
9 group_2 WC1A 1DD -357652478068898330
10 1488087 WC1A 1DD 1701757393872926575
11 1488087 WC1A 1DD 1701757393872926575
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.