基於另一列創建 pandas 聚合列

Question

我正在練習 stats 和 pandas 並且我想創建一個名為“平均值”的第三列，它計算出每個分組位置的平均值，以便每個單獨的行可以使用它執行計算。 這是我開始的內容：

import pandas as pd

df = pd.DataFrame({'Location': ['Alaska', 'Alaska', 'Amsterdam', 'Amsterdam',
                                'Arkansas', 'Arkansas'],
                   'Number': ['300', '500', '250', '600', '400', '150']}

這是我想要的樣子：

real_deviations 列是為了說明我將使用它的目的。 我使用一種相當冗長的 groupby 和 merges 方式解決了這個問題，但我一直試圖找到一個更簡化的解決方案。

任何幫助，將不勝感激！

謝謝！

Answer 1

要生成特定位置的平均值，您需要進行 groupby 變換：

df['mean'] = df.groupby('Location')['Number'].transform('mean')

然后，您可以繼續計算偏差：

df['real_deviations'] = df['Number'] - df['mean']

PS：請務必事先將“Number”中的數字從 str 轉換為 int。 一個簡單df['Number'] = df['Number'].astype(int)就可以了。

Answer 2

你需要的核心能力是transform

計算每行組的平均值
使用此計算附加列

df = pd.DataFrame({'Location': ['Alaska', 'Alaska', 'Amsterdam', 'Amsterdam',
                                'Arkansas', 'Arkansas'],
                   'Number': ['300', '500', '250', '600', '400', '150']})
df["Number"] = df["Number"].astype(int)

df.assign(means=df.groupby("Location", as_index=False).transform("mean"),
          real_deviation=lambda d: d["Number"] - d["means"])

	地點	數字	方法	真實偏差
0	阿拉斯加州	300	400	-100
1	阿拉斯加州	500	400	100
2	阿姆斯特丹	250	425	-175
3	阿姆斯特丹	600	425	175
4	阿肯色州	400	275	125
5	阿肯色州	150	275	-125

基於另一列創建 pandas 聚合列

問題描述

2 個解決方案

解決方案1
2 2021-06-09 17:42:40

解決方案2
0 2021-06-09 17:44:11

基於另一列創建 pandas 聚合列

問題描述

2 個解決方案

解決方案1 2 2021-06-09 17:42:40

解決方案2 0 2021-06-09 17:44:11

解決方案1
2 2021-06-09 17:42:40

解決方案2
0 2021-06-09 17:44:11