如何在 Pandas 中獲取組中最大數據的列的值？

Question

我有一個數據框，它為每個特定的user_id有多行，我正在嘗試創建一個新的數據框來聚合每個user_id的值。 例如，原始數據幀df是

id    user_id      eventdate      col1       col2
1      100         2015-10-01      2          A
2      200         2015-11-01      4          B
3      300         2015-12-01      1          A
4      100         2016-02-01      3          B
5      300         2016-03-01      6          C

從這里我想要一個新的數據幀df_agg為每個用戶是這樣的：

user_id      col1_sum        col2_latest
100          5               B
200          4               B
300          7               C

我通過執行這樣的 groupby 獲得了col1_sum ：

df_agg = pd.DataFrame({'col1_sum': df.groupby('NAME')['col1'].sum()})

如何將col2_latest列添加到此數據col2_latest ？

Answer 1

您需要按sum和last aggregate ：

df_agg = df.groupby('user_id').agg({'col1':'sum','col2':'last'})
df_agg = df_agg[['col1','col2']].rename(columns={'col1':'col1_sum','col2':'col2_latest'})
                                .reset_index()
print (df_agg)
   user_id  col1_sum col2_latest
0      100         5           B
1      200         4           B
2      300         7           C

如何在 Pandas 中獲取組中最大數據的列的值？

問題描述

1 個解決方案

解決方案1
1 已采納 2017-02-03 11:16:38

如何在 Pandas 中獲取組中最大數據的列的值？

問題描述

1 個解決方案

解決方案1 1 已采納 2017-02-03 11:16:38

解決方案1
1 已采納 2017-02-03 11:16:38