繁体   English   中英

Python-pandas-Datetimeindex:分析步数滚动的最蟒蛇策略是什么? (例如每天某些时间)

[英]Python-pandas - Datetimeindex: What is the mosty pythonic strategy to analyse rolling with steps? (e.g. certain hours for each day)

我正在使用跨越几年的每小时温度数据的DateTimeIndex进行数据处理。 我想用了一天的20:00至次日 8:00之间,最低温度添加一列。 白天的温度-8:00至20:00-无关紧要。 结果可以是原始数据的每小时分辨率,也可以重新采样为几天。

我研究了许多策略来解决此问题,但是不确定最有效的方式(就主要的编码效率和辅助计算效率而言)分别是这样做的。 我想出了一些可能性:

  1. 根据df.index.hour附加一个标签为“ day”,“ night”的列,并使用group_bydf.loc查找最小值
  2. 重新采样至12h,然后每秒降低一次。 不确定如何使重采样周期从20:00开始。
  3. 添加一个多索引-我想这与方法1类似,但是对于我要实现的目标来说有点过高。
  4. 使用df.between_timehttps://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.between_time.html#pandas.DataFrame.between_time ),尽管我不确定日期是否会更改午夜会使这有点混乱。
  5. 最后,有一些关于将滚动与步进参数结合在一起作为新的熊猫功能的讨论: https : //github.com/pandas-dev/pandas/issues/15354

原始df如下所示:

datetime                 temp
2009-07-01 01:00:00      17.16
2009-07-01 02:00:00      16.64
2009-07-01 03:00:00      16.21  #<-- minimum for the night 2009-06-30 (previous date since periods starts 2009-06-30 20:00)
...                        ...
2019-06-24 22:00:00      14.03  #<-- minimum for the night 2019-06-24
2019-06-24 23:00:00      18.87
2019-06-25 00:00:00      17.85
2019-06-25 01:00:00      17.25

我想得到这样的东西(从20:00天到18:00天的最低温度):

datetime                 temp
2009-06-30 23:00:00      16.21
2009-07-01 00:00:00      16.21
2009-07-01 01:00:00      16.21
2009-07-01 02:00:00      16.21
2009-07-01 03:00:00      16.21
...                        ...
2019-06-24 22:00:00      14.03
2019-06-24 23:00:00      14.03
2019-06-25 00:00:00      14.03
2019-06-25 01:00:00      14.03

或更简洁:

datetime    temp
2009-06-30  16.21
...           ...
2019-06-24  14.03

使用base选项resample

rs = df.resample('12h', base=8).min()

然后仅保留20:00的行:

rs[rs.index.hour == 20]

您可以将TimeGrouperfreq=12hbase=8一起使用,从20:00-(+ day)08:00每12小时对数据帧进行分块,

那么你可以只使用.min()

尝试这个:

import pandas as pd
from io import StringIO

s = """
datetime                 temp
2009-07-01 01:00:00      17.16
2009-07-01 02:00:00      16.64
2009-07-01 03:00:00      16.21
2019-06-24 22:00:00      14.03
2019-06-24 23:00:00      18.87
2019-06-25 00:00:00      17.85
2019-06-25 01:00:00      17.25"""

df = pd.read_csv(StringIO(s), sep="\s\s+")
df['datetime'] = pd.to_datetime(df['datetime'])

result = df.sort_values('datetime').groupby(pd.Grouper(freq='12h', base=8, key='datetime')).min()['temp'].dropna()
print(result)

输出:

datetime
2009-06-30 20:00:00    16.21
2019-06-24 20:00:00    14.03
Name: temp, dtype: float64

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM