如何使用转换条件转换 pandas groupby？

Question

我有一个 dataframe 包含 session 和投标数据，其中有三列（感兴趣）：用户 ID、事件和日期。

user_id 只是一个标识用户的 ID
事件是出价或 session
日期是日期时间 object

现在我要做的是在我的 dataframe 中添加一列，即第一次投标的日期。 我已经尝试了几种让它工作的方法，但问题是用户在出价之前生成 session 当然很常见。

我已经尝试了几种方法来让过滤器工作，但它似乎不像我认为的那样工作。 从文档中它说“返回 DataFrame 的副本，不包括不满足 func 指定的 boolean 标准的组中的元素。” 这听起来像我想要的，忽略组中的事件是 session 而不是出价。

df['first bid date'] = df.groupby('user_id').filter(lambda x: x['event'] == 'bid')['date'].transform('min')

当这不起作用时，我尝试让转换采用自定义 function，如下所示：

def custom_transform(group):
    return group[group['event'] == 'bid']['date'].min()


df['first bid date'] = df.groupby('user_id').['date'].transform(custom_transform)

但这不起作用，因为转换无法同时访问日期和事件，似乎无论我如何分组。

最后，我尝试按 user_id 和这样的事件进行分组

df['first bid date'] = df.groupby(['user_id', 'event'])['date'].transform('min')

哪种有效，但是我不得不将所有第一个会话更改为第一个投标，因为现在有第一个 session 和第一个投标。

有什么意见可以让这个 oneliner 工作吗？ 似乎 groupby、filter 和 transform 的组合应该可以解决问题，但我就是无法破解它。

谢谢！

Answer 1

想法是在transform不匹配的值替换为缺失值，这里是Series.where ：

df['first bid date'] = (df.assign(date = df['date'].where(df['event'] == 'bid'))
                          .groupby('user_id')['date']
                          .transform('min'))

Answer 2

这是一些带有 dataframe 的示例代码来匹配问题。

from io import StringIO

csv = StringIO("""index,uid,event,date
0,1,"bid",'2010-01-01'
1,1,"bid",'2013-01-01'
2,1,"session",'2009-01-01'
3,2,"session",'2010-01-01'
4,2,"bid",'2015-01-01'
5,2,"bid",'2017-01-01'""")

df = pd.read_csv(csv, index_col='index').reset_index(drop=True)

这种替代方法使用merge function。

df.merge(df[df['event']=='bid'].groupby('uid')['date'].min(),
on='uid', suffixes=('','_first_bid'))

哪个打印：

    uid  event    date        date_first_bid
0   1    bid      2010-01-01  2010-01-01
1   1    bid      2013-01-01  2010-01-01
2   1    session  2009-01-01  2010-01-01
3   2    session  2010-01-01  2015-01-01
4   2    bid      2015-01-01  2015-01-01
5   2    bid      2017-01-01  2015-01-01

如何使用转换条件转换 pandas groupby？

问题描述

2 个解决方案

解决方案1
1 已采纳 2020-05-15 08:52:34

解决方案2
0 2020-05-29 22:49:49

如何使用转换条件转换 pandas groupby？

问题描述

2 个解决方案

解决方案1 1 已采纳 2020-05-15 08:52:34

解决方案2 0 2020-05-29 22:49:49

解决方案1
1 已采纳 2020-05-15 08:52:34

解决方案2
0 2020-05-29 22:49:49