[英]Calculating handling time out of overlapping intervals
我从下面的销售人员那里导出并转换了一些原始数据;
df = pd.DataFrame(columns=['contact_start','name', 'aht'],
data=[['2021-09-27 09:58:00','Venus','180'],
['2021-09-27 10:00:00','Venus','240'],
['2021-09-27 11:05:00','Venus','60'],
['2021-09-27 10:55:00','Mars','30'],
['2021-09-27 10:56:00','Mars','30']])
使用下面的这些代码
df["contact_start"] = pd.to_datetime(df["contact_start"], format = "%Y-%m-%d %H:%M:%S",errors='coerce')
df["date"] = df["contact_start"].dt.strftime('%Y-%m-%d')
df['aht']=pd.to_datetime(df["aht"], unit='s').dt.strftime("%H:%M:%S")
df['contact_finish'] = pd.to_timedelta(df['aht']) + pd.to_datetime(df['contact_start'])
df['contact_finish'] = df['contact_finish'].astype('datetime64[s]')
我将其转换为:
但我的最终目标是处理重叠问题,我想不出如何实现它。
结果应该如下所示:
df = pd.DataFrame(columns=['date','name', 'total_duration_sec'],
data=[['2021-09-27','Venus','420'],
['2021-09-27','Mars','60']])
我想这看起来很简单,但实际上并非如此。 我将不胜感激任何帮助。
编辑:我不知道如何在 python 中放入更有意义的数据,所以我上传了一个示例数据文件(3kb csv)
我认为您可以在每个名称的连续 contact_start 之间创建以秒为单位的时间差
upper_seconds = (
df.sort_values(['name','contact_start'])
.groupby('name')['contact_start'].diff(-1)
.dt.total_seconds().abs())
print(upper_seconds.sort_index())
# 0 120.0
# 1 3900.0
# 2 NaN
# 3 60.0
# 4 NaN
# Name: contact_start, dtype: float64
现在,您可以将其用作 aht 的上层剪辑,然后按名称和日期和总和分组。
res = (
df['aht'].astype(int)
.clip(upper=upper_seconds)
.groupby([df['name'], df['date']]).sum()
.reset_index(name='total_duration_sec')
)
print(res)
name date total_duration_sec
0 Mars 2021-09-27 60
1 Venus 2021-09-27 420
请注意,我使用了您已经编写的前两行来获得良好的类型。
df["contact_start"] = pd.to_datetime(df["contact_start"],
format = "%Y-%m-%d %H:%M:%S",errors='coerce')
df["date"] = df["contact_start"].dt.strftime('%Y-%m-%d')
您可以通过将这些行添加到代码中来使现有代码工作:
overlapped = pd.Series(df.groupby(['name']).apply(lambda x: (x['contact_finish'] - x['contact_start'].shift(-1)).dt.total_seconds().shift()).droplevel(0), name='overlapped')
overlapped = overlapped.mask(overlapped<0, 0).fillna(0)
df['date'] = df['contact_start'].dt.date
df = df.groupby(['date', 'name']).apply(lambda x: (((x['contact_finish'] - x['contact_start']).dt.seconds) - overlapped).sum()).reset_index(name='total_duration_sec')
输出:
date name total_duration_sec
0 2021-09-27 Mars 60.0
1 2021-09-27 Venus 420.0
有一个涉及阶梯函数的解决方案,可以处理跨日边界的重叠(如果需要更通用的方法)
import pandas as pd
import staircase as sc
def create_union_stepfunction(dframe):
return sc.Stairs(dframe, "contact_start", "contact_finish").make_boolean()
step_functions = df.groupby("name").apply(create_union_stepfunction)
这为您提供了一个名为step_functions
的系列,由行星名称索引,值是代表阶梯函数的staircase.Stairs
对象。
name
Mars <staircase.Stairs, id=1956311648200>
Venus <staircase.Stairs, id=1956311120648>
dtype: object
这些阶跃函数在接触期间的值为 1,否则为 0。 然后,我们可以用 bin 对阶跃函数进行切片并计算积分,以获得每个 bin 进行接触的总时间。 对于日常垃圾箱使用
def calc_seconds_per_bin(sf, bins):
return sf.slice(bins).integral()/pd.Timedelta("1 second")
step_functions.apply(calc_seconds_per_bin, pd.date_range("2021-9-27", "2021-9-29"))
你会得到一个pandas.DataFrame
[2021-09-27, 2021-09-28) [2021-09-28, 2021-09-29)
name
Mars 60.0 0.0
Venus 420.0 0.0
注意:我是楼梯的创造者。 如果您有任何反馈或问题,请随时与我们联系。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.