繁体   English   中英

在一列 pandas dataframe 中的 groupby 连续数字

[英]groupby streak of numbers in one column of pandas dataframe

这是我的 dataframe:

import pandas as pd

df = pd.DataFrame(
    {
        'a': [0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0],
        'b': [0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0]
    }
)

这就是我想要分组的方式:

2   1  1
3   0  1
4   0  1
5   0  1
6   0  0
7   0  0

9   1  0
10  0  1

13  1  1
14  0  1
15  0  1
16  0  0
17  0  1

我想根据 b 列的值对这个 dataframe 进行分组。 首先要做的是在 a 列中找到 1。 然后我想继续,只要 b 列中有 0,然后也得到 0 之后的行。 如果 a 中的值为 1 而 b 中的值为 0 我只想继续一行。 基本上我想在 b 列中有 0 时立即停止,然后在 0 之后的一行中停止 go。

我已经尝试过这两个帖子: post1post2但仍然有问题要解决这个问题。

我试图将它们分组: df.b.diff().cumsum()但它没有给我我想要的

使用cumsum创建一个用于过滤/分组的辅助系列,然后使用 boolean 掩码对每个组进行子过滤:

group = df['a'].cumsum()

for k, g in df[group>0].groupby(group):
    # drop rows 2 places after the first 0
    m = g['b'].ne(0).cummin().shift(2, fill_value=True)
    print(g[m])

Output:

   a  b
2  1  1
3  0  1
4  0  1
5  0  1
6  0  0
7  0  0

    a  b
9   1  0
10  0  1

    a  b
13  1  1
14  0  1
15  0  1
16  0  0
17  0  1

作为单个 dataframe:

运行上述和concat ,或者:

group = df['a'].cumsum()
m = df['b'].ne(0).groupby(group).apply(lambda x: x.cummin().shift(2, fill_value=True))

out = df[group.gt(0)&m]

Output:

    a  b
2   1  1
3   0  1
4   0  1
5   0  1
6   0  0
7   0  0
9   1  0
10  0  1
13  1  1
14  0  1
15  0  1
16  0  0
17  0  1

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM