如何在 groupby pandas 數據框中保留前綴最頻繁的值？

Question

假設我有這個數據框：

    Country Market
0   Spain   m1_name
1   Spain   m1_location
2   Spain   m1_size
3   Spain   m2_location
4   USA     m1_name
5   USA     m2_name
6   USA     m3_size
7   USA     m3_location

我想對“國家”列進行分組，並在 groupby 對象中保留最頻繁記錄的記錄。 預期的結果是：

    Country Market
0   Spain   m1_name
1   Spain   m1_location
2   Spain   m1_size
6   USA     m3_size
7   USA     m3_location

我已經嘗試過提取前綴，然后在數據幀上獲取前綴的模式，並用這種模式合並行，但我覺得存在更直接和更有效的解決方案。

以下是可重現結果的工作示例代碼：

df = pd.DataFrame({
    "Country": ["Spain","Spain","Spain","Spain","USA","USA","USA","USA"],
    "City": ["m1_name","m1_location","m1_size","m2_location","m1_name","m2_name","m3_size","m3_location"]                
                    })
df['prefix'] = df['City'].str[1]
modes = df.groupby('Country')['prefix'].agg(pd.Series.mode).rename("modes")
df = df.merge(modes, how="right", left_on=['Country','prefix'], right_on=['Country',"modes"])
df = df.drop(['modes','prefix'], axis = 1)
print(df)

Country         City
0   Spain      m1_name
1   Spain  m1_location
2   Spain      m1_size
3     USA      m3_size
4     USA  m3_location

Answer 1

您可以嘗試 groupby 並應用於過濾組行

out = (df.assign(prefix=df['City'].str.split('_').str[0])
       .groupby('Country')
       .apply(lambda g: g[g['prefix'].isin(g['prefix'].mode())])
       .reset_index(drop=True)
       .drop('prefix',axis=1))

print(out)

  Country         City
0   Spain      m1_name
1   Spain  m1_location
2   Spain      m1_size
3     USA      m3_size
4     USA  m3_location

Answer 2

利用：

In [575]: df['Prefix_count'] = df.groupby(['Country', df.City.str.split('_').str[0]])['City'].transform('size')

In [589]: idx = df.groupby('Country')['Prefix_count'].transform(max) == df['Prefix_count']

In [593]: df[idx].drop('Prefix_count', 1)
Out[593]: 
  Country         City
0   Spain      m1_name
1   Spain  m1_location
2   Spain      m1_size
6     USA      m3_size
7     USA  m3_location

Answer 3

關於下面提出的解決方案的一個有趣事實是 Mayank 的解決方案要快得多。 我在我的數據上運行了 1000 行並得到：

Mayank 的解決方案： 0.020 seconds
Ynjxsjmh 的解決方案： 0.402 seconds
我的（OP）解決方案： 0.122 seconds

如何在 groupby pandas 數據框中保留前綴最頻繁的值？

問題描述

3 個解決方案

解決方案1
1 已采納 2022-05-18 15:10:37

解決方案2
1 2022-05-18 15:17:05

解決方案3
0 2022-05-18 15:56:29

如何在 groupby pandas 數據框中保留前綴最頻繁的值？

問題描述

3 個解決方案

解決方案1 1 已采納 2022-05-18 15:10:37

解決方案2 1 2022-05-18 15:17:05

解決方案3 0 2022-05-18 15:56:29

解決方案1
1 已采納 2022-05-18 15:10:37

解決方案2
1 2022-05-18 15:17:05

解決方案3
0 2022-05-18 15:56:29