繁体   English   中英

Pandas - 具有来自另一列的条件的groupby列

[英]Pandas - groupby columns with conditions from another column

我正在努力研究如何使用条件对多个列值进行分组:

以下是我的数据作为pandas数据帧的样子:

id      trigger     timestamp
1       started     2017-10-01 14:00:1
1       ended       2017-10-04 12:00:1
2       started     2017-10-02 10:00:1
1       started     2017-10-03 11:00:1
2       ended       2017-10-04 12:00:1    
2       started     2017-10-05 15:00:1
1       ended       2017-10-05 16:00:1
2       ended       2017-10-05 17:00:1

我的目标是找出按ID分组的日期之间的日/小时或分钟差异。

我的输出看起来应该更像这样(在hrs中的diff):

id      trigger     timestamp           trigger     timestamp               diff
1       started     2017-10-01 14:00:1  ended       2017-10-04 12:00:1      70
1       started     2017-10-03 11:00:1  ended       2017-10-05 16:00:1      53
2       started     2017-10-02 10:00:1  ended       2017-10-04 12:00:1      26
2       started     2017-10-05 15:00:1  ended       2017-10-05 17:00:1      2

我尝试了很多选择,但我不能提供最有效的解决方案。

这是我的代码,直到现在:

首先,我尝试将数据拆分为“已启动”和“已结束”:

df['started'] = df.groupby(['id', 'timestamp'])['trigger'] == 'started'

df['ended'] = df.groupby(['id', 'timestamp'])['trigger'] == 'ended'

接着:

df.groupby(['id', 'started', 'ended'], as_index=True).sum()

但它不起作用。 要么

df['started'] = df.groupby(['trigger'])['timestamp'].np.where(df['trigger']=='started')

也没有直觉的结果。

有人指出如何用熊猫做正确的方向吗? 我还将在数据中使用空匹配,如何使用df.fillna(method='ffill')将NaN或缺少的数据添加到新数据帧。

  1. idtrigger设置为索引
  2. 由于索引包含重复的条目,因此使用groupwise cumcount附加另一个索引列。 MultiIndexdf必须有一个包含3列的MultiIndex
  3. timestamp unstack
  4. 找到每小时列之间的差异并返回结果

df['timestamp'] = pd.to_datetime(df['timestamp']) # if necessary

i = df.groupby(['id', 'trigger']).cumcount()
df.set_index(['id', i, 'trigger']).timestamp.unstack().assign(
       diff=lambda d: d.ended.sub(d.started).dt.total_seconds() / 3600
)

感谢piRSquared的改进。

v

                  timestamp                      diff
trigger               ended             started      
id                                                   
1  0    2017-10-04 12:00:01 2017-10-01 14:00:01  70.0
   1    2017-10-05 16:00:01 2017-10-03 11:00:01  53.0
2  0    2017-10-04 12:00:01 2017-10-02 10:00:01  50.0
   1    2017-10-05 17:00:01 2017-10-05 15:00:01   2.0

结果与您的问题中描述的不完全相同,但我相信列的MultiIndex将是一种更清晰的方式来表示输出而不是两个触发列。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM