如何获得python的每日平均值？

Question

我有一个格式如下的文件：

（年-月-日-数据）

1980-1-1-1.2
1980-1-2-1.3
1980-1-3-1.4
1980-1-4-1.5
1980-1-5-1.6
1980-1-6-1.7
1980-1-7-1.8

它在一个numpy数组中。 它是大约24年间的数据，所以我想做的是每天取平均值，并将其放入一个单独的1D数组中，该数组只是366（leap年）平均值，我可以然后使用matplotlib进行绘图，并可以查看多年来的趋势。 如果仍然在循环中使用子集，那么我可以做到这一点吗？

Answer 1

使用熊猫绝对是必经之路。 至少有两种方式可以对“一年中的某天”进行分组，您可以将年份中的数字天作为字符串或字符串monthday组合来进行，如下所示：

import pandas as pd
import numpy as np

df = pd.DataFrame(index=pd.date_range('2000-01-01', '2010-12-31'))

df['vals'] = np.random.randint(1, 6, df.shape[0])

print(df.groupby(df.index.strftime("%j")).mean())
print(df.groupby(df.index.strftime("%m%d")).mean())

Answer 2

对于任何想解决此问题的人，这里都有一些代码。

从本质上讲，代码一次读取输入文件一行，挑选日期和值的元素，将它们重新组合成大熊猫可以轻松解析的行，并将其放入StringIO对象。

熊猫从那里读取它们，就像从csv文件读取一样。 我已经从PiRSquared编写了分组代码。

import pandas as pd
import re
from io import StringIO

file_name = 'temp.txt'

for_pd = StringIO()
with open(file_name) as f:
    for line in f:
        pieces = re.search(r'([0-9]{4}) - ([0-9]{,2}) - ([0-9]{,2}) - ([0-9.]+)', line).groups()
        pieces = [int(_) for _ in pieces[:3]] + [pieces[3]]
        print ('%.4i-%.2i-%.2i,%s' % tuple(pieces), file=for_pd)
for_pd.seek(0)

df = pd.read_csv(for_pd, header=None, names=['datetimes', 'values'], parse_dates=['datetimes'])

print (df.set_index('datetimes').groupby(pd.TimeGrouper('D')).mean().dropna())
print (df.set_index('datetimes').groupby(pd.TimeGrouper('W')).mean().dropna())

这是输出。

            values
datetimes         
1980-01-01     1.2
1980-01-02     1.3
1980-01-03     1.4
1980-01-04     1.5
1980-01-05     1.6
1980-01-06     1.7
1980-01-07     1.8
            values
datetimes         
1980-01-06    1.45
1980-01-13    1.80

如何获得python的每日平均值？

问题描述

2 个解决方案

解决方案1
4 已采纳 2017-10-24 18:16:28

解决方案2
0 2017-10-25 20:23:22

如何获得python的每日平均值？

问题描述

2 个解决方案

解决方案1 4 已采纳 2017-10-24 18:16:28

解决方案2 0 2017-10-25 20:23:22

解决方案1
4 已采纳 2017-10-24 18:16:28

解决方案2
0 2017-10-25 20:23:22