Pandas：如何根據唯一列值分配隨機數

Question

我有一個包含“組”和“郵政編碼”列的大型數據集。 下面給出了一個 df 的示例：

group   postcode
group_1 WC2E 8BU
group_1 WC2E 8BU
group_1 WC2E 8BU
group_2 WC2E 8BU
group_2 WC2E 8BU
group_2 WC2E 8BU
group_2 WC1A 1DD
group_2 WC1A 1DD
group_2 WC1A 1DD
group_2 WC1A 1DD
1488087 WC1A 1DD
1488087 WC1A 1DD

我正在嘗試創建一個名為“random_val”的新列，為唯一組中的每個匹配郵政編碼分配一個隨機統一編號，用於“組”列中沒有數字的行。 我的代碼如下所示：

df.loc[~df['group'].astype(str).str.isdigit(), 'random_val'] = df['postcode'].map(dict(zip(df['postcode'].unique(), np.random.uniform(0, 1, size=len(self.data['postcode'].unique())))))

目前，此代碼為唯一的郵政編碼分配一個唯一的隨機數，無論它屬於哪個組：

group   postcode    random_val
group_1 WC2E 8BU    0.210917735
group_1 WC2E 8BU    0.210917735
group_1 WC2E 8BU    0.210917735
group_2 WC2E 8BU    0.210917735
group_2 WC2E 8BU    0.210917735
group_2 WC2E 8BU    0.210917735
group_2 WC1A 1DD    0.55733542
group_2 WC1A 1DD    0.55733542
group_2 WC1A 1DD    0.55733542
group_2 WC1A 1DD    0.55733542
1488087 WC1A 1DD    
1488087 WC1A 1DD

但是，我希望隨機數對郵政編碼和組是唯一的：

group   postcode    random_val
group_1 WC2E 8BU    0.210917735
group_1 WC2E 8BU    0.210917735
group_1 WC2E 8BU    0.210917735
group_2 WC2E 8BU    0.494920676
group_2 WC2E 8BU    0.494920676
group_2 WC2E 8BU    0.494920676
group_2 WC1A 1DD    0.55733542
group_2 WC1A 1DD    0.55733542
group_2 WC1A 1DD    0.55733542
group_2 WC1A 1DD    0.55733542
1488087 WC1A 1DD    
1488087 WC1A 1DD

正在努力弄清楚如何做到這一點。 任何幫助表示贊賞。 謝謝

Answer 1

您可以在此處利用 pandas alignment。

df.set_index('group',inplace=True)
unique_idx = df.index[~df.index.str.isdigit()].unique()
s = pd.Series(np.random.uniform(0,1,len(unique_idx)) , index =unique_idx)
df['random_value'] = s
df.reset_index()

      group  postcode  random_value
0   group_1  WC2E 8BU      0.232501
1   group_1  WC2E 8BU      0.232501
2   group_1  WC2E 8BU      0.232501
3   group_2  WC2E 8BU      0.242696
4   group_2  WC2E 8BU      0.242696
5   group_2  WC2E 8BU      0.242696
6   group_2  WC1A 1DD      0.242696
7   group_2  WC1A 1DD      0.242696
8   group_2  WC1A 1DD      0.242696
9   group_2  WC1A 1DD      0.242696
10  1488087  WC1A 1DD           NaN
11  1488087  WC1A 1DD           NaN

Answer 2

這是一個解決方案：

def random_val(x):
    return pd.Series([np.random.uniform(0, 1)] * x.size)

df["dummy"] = 1

df["random_val"] = df.groupby(["group", "postcode"])["dummy"].transform(random_val)
df.loc[df['group'].astype(str).str.isdigit(), "random_val"] = None

結果是：

      group  postcode  dummy  random_val
0   group_1  WC2E 8BU      1    0.781711
1   group_1  WC2E 8BU      1    0.781711
2   group_1  WC2E 8BU      1    0.781711
3   group_2  WC2E 8BU      1    0.107743
4   group_2  WC2E 8BU      1    0.107743
5   group_2  WC2E 8BU      1    0.107743
6   group_2  WC1A 1DD      1    0.103295
7   group_2  WC1A 1DD      1    0.103295
8   group_2  WC1A 1DD      1    0.103295
9   group_2  WC1A 1DD      1    0.103295
10  1488087  WC1A 1DD      1         NaN
11  1488087  WC1A 1DD      1         NaN

Answer 3

散列兩列可能是最簡單的解決方案：

df['hash'] = pd.Series((hash(tuple(row)) for _, row in df.iterrows()))

    group   postcode    hash
0   group_1 WC2E 8BU    -8918045538474016779
1   group_1 WC2E 8BU    -8918045538474016779
2   group_1 WC2E 8BU    -8918045538474016779
3   group_2 WC2E 8BU    -6943464964421442707
4   group_2 WC2E 8BU    -6943464964421442707
5   group_2 WC2E 8BU    -6943464964421442707
6   group_2 WC1A 1DD    -357652478068898330
7   group_2 WC1A 1DD    -357652478068898330
8   group_2 WC1A 1DD    -357652478068898330
9   group_2 WC1A 1DD    -357652478068898330
10  1488087 WC1A 1DD    1701757393872926575
11  1488087 WC1A 1DD    1701757393872926575

Pandas：如何根據唯一列值分配隨機數

問題描述

3 個解決方案

解決方案1
1 2020-06-06 18:32:23

解決方案2
0 2020-06-06 18:34:18

解決方案3
0 2020-06-06 18:45:19

Pandas：如何根據唯一列值分配隨機數

問題描述

3 個解決方案

解決方案1 1 2020-06-06 18:32:23

解決方案2 0 2020-06-06 18:34:18

解決方案3 0 2020-06-06 18:45:19

解決方案1
1 2020-06-06 18:32:23

解決方案2
0 2020-06-06 18:34:18

解決方案3
0 2020-06-06 18:45:19