如何保持pandas group的零计数数为2列数据帧？

Question

如果数据框有3列，我发现这个StackOverflow答案给出零计数： Pandas groupby为零值

但是，如何为只有两列的数据框执行此操作：

题
注意：链操作中的答案更可取 ：

import numpy as np
import pandas as pd

df = pd.DataFrame({'date': pd.date_range('2018-01-01', periods=6),
                   'a': range(6),
                   })

df.iloc[2,0] = df.iloc[1,0]
print(df)
        date  a
0 2018-01-01  0
1 2018-01-02  1
2 2018-01-02  2
3 2018-01-04  3
4 2018-01-05  4
5 2018-01-06  5

为了计算我的计数：

df1 = (df.query("a > 0")
    .groupby(['date'])[['a']]
    .count()
    .add_suffix('_count')
    .reset_index() 
     )

print(df1)
        date  a_count
0 2018-01-02        2
1 2018-01-04        1
2 2018-01-05        1
3 2018-01-06        1

连锁经营所需的答案

        date  a_count
0 2018-01-01        0  # also include this row
0 2018-01-02        2
1 2018-01-04        1
2 2018-01-05        1
3 2018-01-06        1

我的尝试：

df1 = (df.query("a > 0")
    .groupby(['date'])[['a']]
    .count()
    .add_suffix('_count')
    .unstack(fill_value=0)
    .to_frame()
    .stack()
    .reset_index() 
     )

print(df1)
   level_0       date  level_2  0
0  a_count 2018-01-02        0  2
1  a_count 2018-01-04        0  1
2  a_count 2018-01-05        0  1
3  a_count 2018-01-06        0  1

这不起作用。

如何解决这个问题？

相关链接：
Pandas groupby为零值

Answer 1

在groupby之前指定要计算的事物的列：

df.assign(to_sum = df.a.gt(0).astype(int)).groupby('date').to_sum.sum()
#date
#2018-01-01    0
#2018-01-02    2
#2018-01-04    1
#2018-01-05    1
#2018-01-06    1
#Name: to_sum, dtype: int32

可以在.rename('a_count').reset_index()上获取您的确切输出。

或者，如果用例有点复杂且无法实现，则可以在groupby之后始终reindex + fillna

(df[df.a > 0].groupby('date').a.count()
     .reindex(df.date.unique()).fillna(0).astype(int)
     .rename('a_count').reset_index())

#        date  a_count
#0 2018-01-01        0
#1 2018-01-02        2
#2 2018-01-04        1
#3 2018-01-05        1
#4 2018-01-06        1

Answer 2

就像你看到的一样简单

(df['a'].gt(0)).groupby(df['date']).sum().to_frame('count_a').reset_index()
        date  count_a
0 2018-01-01      0.0
1 2018-01-02      2.0
2 2018-01-04      1.0
3 2018-01-05      1.0
4 2018-01-06      1.0

Answer 3

让@ ALollz的答案更美观美学：

df1 = (df.assign(
           to_sum = lambda x: (x['a']> 0).astype(int)
                 )
 .groupby('date')['to_sum']
 .sum()
 .rename('a_count')
 .to_frame()
 .reset_index() 

)

print(df1)
print(df1)
        date  a_count
0 2018-01-01        0
1 2018-01-02        2
2 2018-01-04        1
3 2018-01-05        1
4 2018-01-06        1

如何保持pandas group的零计数数为2列数据帧？

问题描述

3 个解决方案

解决方案1
2 已采纳 2019-04-27 21:29:11

解决方案2
2 2019-04-27 23:23:03

解决方案3
0 2019-04-27 21:50:09

如何保持pandas group的零计数数为2列数据帧？

问题描述

3 个解决方案

解决方案1 2 已采纳 2019-04-27 21:29:11

解决方案2 2 2019-04-27 23:23:03

解决方案3 0 2019-04-27 21:50:09

解决方案1
2 已采纳 2019-04-27 21:29:11

解决方案2
2 2019-04-27 23:23:03

解决方案3
0 2019-04-27 21:50:09