[英]how to groupby hour in a pandas multiindex
我有一个带有两个索引,数据和性别列的熊猫多索引。 看起来像这样:
Division North South West East
Date Gender
2016-05-16 19:00:00 F 0 2 3 3
M 12 15 12 12
2016-05-16 20:00:00 F 12 9 11 11
M 10 13 8 9
2016-05-16 21:00:00 F 9 4 7 1
M 5 1 12 10
现在,如果我想查找每个小时的平均值,我知道可以这样做:
df.groupby(df.index.hour).mean()
但是,当您有多索引时,这似乎不起作用。 我发现可以达到Date索引,例如:
df.groupby(df.index.get_level_values('Date').hour).mean()
一天24小时内的平均水平,但我不太了解性别指数...
所以我的问题是:如何找到按性别划分的每个部门的平均小时值?
我认为您可以添加MultiIndex
级别,需要pandas 0.20.1+
:
df1 = df.groupby([df.index.get_level_values('Date').hour,'Gender']).mean()
print (df1)
North South West East
Date Gender
19 F 0 2 3 3
M 12 15 12 12
20 F 12 9 11 11
M 10 13 8 9
21 F 9 4 7 1
M 5 1 12 10
另一个解决方案:
df1 = df.groupby([df.index.get_level_values('Date').hour,
df.index.get_level_values('Gender')]).mean()
print (df1)
North South West East
Date Gender
19 F 0 2 3 3
M 12 15 12 12
20 F 12 9 11 11
M 10 13 8 9
21 F 9 4 7 1
M 5 1 12 10
或者直接从MultiIndex
创建列:
df = df.reset_index()
df1 = df.groupby([df['Date'].dt.hour, 'Gender']).mean()
print (df1)
North South West East
Date Gender
19 F 0 2 3 3
M 12 15 12 12
20 F 12 9 11 11
M 10 13 8 9
21 F 9 4 7 1
M 5 1 12 10
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.