對 pandas groupby 中的列進行操作

Question

假設我有一個 dataframe df ，它有 4 列col = ["id","date","basket","gender"]和一個 function

def is_valid_date(df):
         idx = some_scalar_function(df["basket") #returns an index
         date = df["date"].values[idx]
         return (date>some_date)

在拆分“split-apply-combine”時，我一直將groupby理解為“創建一個新的數據幀”（很遺憾地說），因此如果我想將is_valid_date應用於每組id ，我會假設我可以做到

df.groupby("id").agg(get_first_date)

但它在idx=some_scalar_function(df["basket"])中拋出KeyError: 'basket'

Answer 1

如果使用GroupBy.agg它分別處理每一列，所以不能選擇像df["basket"], df["date"] 。

解決方案是將GroupBy.apply與您的自定義 function 一起使用：

df.groupby("id").apply(get_first_date)

對 pandas groupby 中的列進行操作

問題描述

1 個解決方案

解決方案1
1 已采納 2020-06-30 08:11:35

對 pandas groupby 中的列進行操作

問題描述

1 個解決方案

解決方案1 1 已采納 2020-06-30 08:11:35

解決方案1
1 已采納 2020-06-30 08:11:35