[英]groupby(“date”) - get datetime of min and max
对于这个pandas DataFrame(实际上更长),我想得到b和date的值,其中b是最小值,b是那天的最大值。 性能是一个问题。
b date
0 1 1999-12-29 23:59:12
1 2 1999-12-29 23:59:13
2 3 1999-12-29 23:59:14
3 3 1999-12-30 23:59:12
4 1 1999-12-30 23:59:13
5 2 1999-12-30 23:59:14
6 2 1999-12-31 23:59:12
7 3 1999-12-31 23:59:13
8 1 1999-12-31 23:59:14
所以我想得到
b date
0 1 1999-12-29 23:59:12
2 3 1999-12-29 23:59:14
3 3 1999-12-30 23:59:12
4 1 1999-12-30 23:59:13
7 3 1999-12-31 23:59:13
8 1 1999-12-31 23:59:14
这是数据帧的生成方式:
import datetime
import pandas as pd
df = pd.DataFrame({"a": ["29.12.1999 23:59:12",
"29.12.1999 23:59:13",
"29.12.1999 23:59:14",
"30.12.1999 23:59:12",
"30.12.1999 23:59:13",
"30.12.1999 23:59:14",
"31.12.1999 23:59:12",
"31.12.1999 23:59:13",
"31.12.1999 23:59:14"],
"b": [1,
2,
3,
3,
1,
2,
2,
3,
1]})
df["date"] = pd.to_datetime(df.a)
df.drop(["a"],axis=1,inplace=True)
首先转换date
为日期格式,那么我们排序值b
使用sort_values
,并使用drop_duplicates
得到你所需要的
df=df.assign(days=df.date.dt.date).sort_values('b')
yourdf=pd.concat([df.drop_duplicates('days'),df.drop_duplicates('days',keep='last')]).\
sort_index().\
drop('days',1)
yourdf
Out[242]:
b date
0 1 1999-12-29 23:59:12
2 3 1999-12-29 23:59:14
3 3 1999-12-30 23:59:12
4 1 1999-12-30 23:59:13
7 3 1999-12-31 23:59:13
8 1 1999-12-31 23:59:14
由于日期的迭代,可能不是最高效的,但是:
df['true_date'] = df['date'].dt.date
date_min_max = df.groupby('true_date')['b'].agg(['min','max'])
result = pd.DataFrame(columns=['b','date'])
for date, min_max_series in date_min_max.iterrows():
date_values = df[(df['true_date'] == date) & df['b'].isin(min_max_series)][['b','date']]
result = result.append(date_values)
Out[170]:
b date
0 1 1999-12-29 23:59:12
2 3 1999-12-29 23:59:14
3 3 1999-12-30 23:59:12
4 1 1999-12-30 23:59:13
7 3 1999-12-31 23:59:13
8 1 1999-12-31 23:59:14
>>> dfg = df.set_index('date').groupby(pd.Grouper(freq='D'))
>>> df['dailyMin'] = df['date'].isin(dfg.idxmin()['b'])
>>> df['dailyMax'] = df['date'].isin(dfg.idxmax()['b'])
>>> df[df[['dailyMin', 'dailyMax']].any(axis=1)]
b date dailyMin dailyMax
0 1 1999-12-29 23:59:12 True False
2 3 1999-12-29 23:59:14 False True
3 3 1999-12-30 23:59:12 False True
4 1 1999-12-30 23:59:13 True False
7 3 1999-12-31 23:59:13 False True
8 1 1999-12-31 23:59:14 True False
这可能不是最有效的方法。 我对.isin()
表示怀疑。 这也部分取决于您的数据集---请参阅此讨论: 选择每组的最大行数 - 熊猫性能问题
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.