繁体   English   中英

在 pandas DataFrame 中对相同的连续值进行分组

[英]Group identical consecutive values in pandas DataFrame

我有以下 pandas dataframe:

   a
0  0
1  0
2  1
3  2
4  2
5  2
6  3
7  2
8  2
9  1

我想将这些值存储在另一个 dataframe 中,例如每组连续的相同值都会形成一个像这样的标记组:

   A  B
0  0  2
1  1  1
2  2  3
3  3  1
4  2  2
5  1  1

A 列表示组的值,B 表示出现次数。

这是我到目前为止所做的:

df = pd.DataFrame({'a':[0,0,1,2,2,2,3,2,2,1]})
df2 = pd.DataFrame()
for i,g in df.groupby([(df.a != df.a.shift()).cumsum()]):
    vc = g.a.value_counts()
    df2 = df2.append({'A':vc.index[0], 'B': vc.iloc[0]}, ignore_index=True).astype(int)

它有效,但有点混乱。

您是否想到了一种最短/更好的方法?

我会尝试:

df['blocks'] = df['a'].ne(df['a'].shift()).cumsum()
(df.groupby(['a','blocks'],
           as_index=False,
           sort=False)
   .count()
   .drop('blocks', axis=1)
)

Output:

   a  B
0  0  2
1  1  1
2  2  3
3  3  1
4  2  2
5  1  1

在 Pandas >0.25.0 中使用 GrouBy.agg GrouBy.agg

new_df= ( df.groupby(df['a'].ne(df['a'].shift()).cumsum(),as_index=False)
            .agg(A=('a','first'),B=('a','count')) )

print(new_df)

   A  B
0  0  2
1  1  1
2  2  3
3  3  1
4  2  2
5  1  1

pandas <0.25.0

new_df= ( df.groupby(df['a'].ne(df['a'].shift()).cumsum(),as_index=False)
            .a
            .agg({'A':'first','B':'count'}) )

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM