計算數據幀列中字符串的最大連續出現次數

Question

我有一個熊貓數據幀，我想在其中計算一列中特定字符串的連續出現次數。

假設我有以下數據幀。

   col1
0  string1
1  string1
2  string1
3  string2
4  string3
5  string3
6  string1

我想將a定義為最大連續出現次數，例如string1或col1任何其他字符串。

在這種情況下， a應該返回3 ，如果我想搜索string1 ，並返回2的string3 。

如何實現？

Answer 1

可以做分組連續值的常用技巧：

df1 = df.groupby((df.col1 != df.col1.shift()).cumsum().rename(None)).col1.agg(['size', 'first'])
#   size    first
#1     3  string1
#2     1  string2
#3     2  string3
#4     1  string1

然后sort_values + drop_duplicates找到最大的：

df1 = df1.sort_values('size').drop_duplicates('first', keep='last').set_index('first').rename_axis(None)
#         size
#string2     1
#string3     2
#string1     3

所以現在你可以輕松查找它們：

df1.loc['string1']
#size    3
#Name: string1, dtype: int64

Answer 2

只是itertools groupby ，這里的順序與原始df保持一致

import itertools 
pd.DataFrame([x,len(list(y))] for x , y in itertools.groupby(df['col1']))
Out[92]: 
         0  1
0  string1  3
1  string2  1
2  string3  2
3  string1  1

pd.DataFrame([x,len(list(y))] for x , y in itertools.groupby(df['col1'])).groupby(0)[1].max()
Out[94]: 
0
string1    3
string2    1
string3    2
Name: 1, dtype: int64

計算數據幀列中字符串的最大連續出現次數

問題描述

2 個解決方案

解決方案1
3 已采納 2019-04-09 14:37:29

解決方案2
2 2019-04-09 14:49:10

計算數據幀列中字符串的最大連續出現次數

問題描述

2 個解決方案

解決方案1 3 已采納 2019-04-09 14:37:29

解決方案2 2 2019-04-09 14:49:10

解決方案1
3 已采納 2019-04-09 14:37:29

解決方案2
2 2019-04-09 14:49:10