Pandas-根據多列值查找平均值

Question

目標是根據name值獲取marks列的平均值（整數）。 如果id和name列多次出現完全相同的值，則相應name的marks將被視為一次。 例如x = (33+14+3)/3 = 16的平均值

樣品 dataframe：

   id name  marks
0   1   x   33
1   1   x   33
2   2   y   9
3   3   x   14
4   4   y   55
5   4   y   55
6   5   x   3
7   6   z   31

預期 output：

   id name marks avg
0   1   x   33  16
1   1   x   33  16
2   2   y   9   32
3   3   x   14  16
4   4   y   55  32
5   4   y   55  32
6   5   x   3   16
7   6   z   31  31

我試過了：

df["avg"] = df.groupby("name")["marks"].mean()

Answer 1

在name列上刪除重復項(id, name)和 map 結果值后計算每個name的平均值：

df['avg'] = df['name'].map(df.drop_duplicates(['id', 'name']).groupby('name')['marks'].mean())
print(df)

# Output:
   id name  marks        avg
0   1    x     33  16.666667
1   1    x     33  16.666667
2   2    y      9  32.000000
3   3    x     14  16.666667
4   4    y     55  32.000000
5   4    y     55  32.000000
6   5    x      3  16.666667
7   6    z     31  31.000000

Answer 2

嘗試這個：

df = df.set_index('name').assign(avg=df[~df.set_index(['name', 'marks']).index.duplicated()].groupby('name')['marks'].mean()).reset_index()

Output：

>>> df
  name  id  marks        avg
0    x   1     33  16.666667
1    x   1     33  16.666667
2    y   2      9  32.000000
3    x   3     14  16.666667
4    y   4     55  32.000000
5    y   4     55  32.000000
6    x   5      3  16.666667
7    z   6     31  31.000000

如果您需要四舍五入， .astype(int)鏈接到 .mean .mean() ：

df = df.set_index('name').assign(avg=df[~df.set_index(['name', 'marks']).index.duplicated()].groupby('name')['marks'].mean().astype(int)).reset_index()

Output：

>>> df
  name  id  marks  avg
0    x   1     33   16
1    x   1     33   16
2    y   2      9   32
3    x   3     14   16
4    y   4     55   32
5    y   4     55   32
6    x   5      3   16
7    z   6     31   31

Answer 3

一個選項，它使用相同的 drop_duplicates 想法，而不使用 groupby，是 pivot 重復數據刪除：

df.assign(avg = df.name.map(df.drop_duplicates().pivot('name', 'id', 'marks').mean(1)))
 
   id name  marks        avg
0   1    x     33  16.666667
1   1    x     33  16.666667
2   2    y      9  32.000000
3   3    x     14  16.666667
4   4    y     55  32.000000
5   4    y     55  32.000000
6   5    x      3  16.666667
7   6    z     31  31.000000

Pandas-根據多列值查找平均值

問題描述

3 個解決方案

解決方案1
4 2021-12-08 19:48:03

解決方案2
0 2021-12-08 19:32:36

解決方案3
0 2021-12-08 20:43:14

Pandas-根據多列值查找平均值

問題描述

3 個解決方案

解決方案1 4 2021-12-08 19:48:03

解決方案2 0 2021-12-08 19:32:36

解決方案3 0 2021-12-08 20:43:14

解決方案1
4 2021-12-08 19:48:03

解決方案2
0 2021-12-08 19:32:36

解決方案3
0 2021-12-08 20:43:14