从pandas数据框中提取计数以外的新列groupby

Question

我正在处理像这样的熊猫数据框：

     Day  Hour         Prio  Value
0      1     6     Critical      1
1      1    16     Critical      1
2      1    17      Content      1
3      1    17          Low      1
6      1    19     Critical      1
7      1    20         High      1
8      2    10         High      1
9      2    10          Low      2

现在，我想按天和小时进行分组，同时生成表示列Prio列中每个值的计数的新列，该列当前存在于列value 。 所以我想实现这个结构：

     Day  Hour  Critical  Content  Low  High
0      1     6         1        0    0     0
1      1    16         1        0    0     0
2      1    17         0        1    1     0
6      1    19         1        0    0     0
7      1    20         0        0    0     1
8      2    10         0        0    2     1

我现在尝试了不同的方法，但还没有取得成功。 我的目标是将这个数据框与另一个按日和小时包含其他列的数据框合并，以进一步汇总它们。 特别是我需要优先级之间每天/每小时的百分比份额（始终存在至少一个非零值）。

在过去的解决方案中，我遍历了每一行以提取单个值，但这相当慢。 我想使其尽可能高效，因为数据应该在bokeh服务器应用程序中实时更新。 也许有没有使用itertuples或类似的解决方案？ 谢谢！

Answer 1

df.groupby(['Day','Hour','Prio']).sum().unstack().fillna(0).astype(int)
#           Value                  
#Prio     Content Critical High Low
#Day Hour                          
#1   6          0        1    0   0
#    16         0        1    0   0
#    17         1        0    0   1
#    19         0        1    0   0
#    20         0        0    1   0
#2   10         0        0    1   2

如果需要，可以进一步重置索引。

Answer 2

或者你可以尝试

pd.pivot_table(df,values='Value',index=['Day','Hour'],columns=['Prio'],aggfunc='sum')\
     .fillna(0).astype(int)


Out[22]: 
Prio      Content  Critical  High  Low
Day Hour                              
1   6           0         1     0    0
    16          0         1     0    0
    17          1         0     0    1
    19          0         1     0    0
    20          0         0     1    0
2   10          0         0     1    2

Answer 3

让我们用set_index ， unstack ， reset_index和rename_axis ：

df.set_index(['Day','Hour','Prio'])['Value']\
  .unstack().fillna(0)\
  .astype(int).reset_index()\
  .rename_axis(None,1)

输出：

   Day  Hour  Content  Critical  High  Low
0    1     6        0         1     0    0
1    1    16        0         1     0    0
2    1    17        1         0     0    1
3    1    19        0         1     0    0
4    1    20        0         0     1    0
5    2    10        0         0     1    2

从pandas数据框中提取计数以外的新列groupby

问题描述

3 个解决方案

解决方案1
2 已采纳 2017-08-31 03:51:10

解决方案2
2 2017-08-31 04:17:29

解决方案3
1 2017-08-31 04:31:19

从pandas数据框中提取计数以外的新列groupby

问题描述

3 个解决方案

解决方案1 2 已采纳 2017-08-31 03:51:10

解决方案2 2 2017-08-31 04:17:29

解决方案3 1 2017-08-31 04:31:19

解决方案1
2 已采纳 2017-08-31 03:51:10

解决方案2
2 2017-08-31 04:17:29

解决方案3
1 2017-08-31 04:31:19