使用Groupby在Pandas Dataframe中標識連續的相同值

Question

我有以下數據幀df：

data={'id':[1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2],
      'value':[2,2,3,2,2,2,3,3,3,3,1,4,1,1,1,4,4,1,1,1,1,1]}
df=pd.DataFrame.from_dict(data)
df
Out[8]: 
    id  value
0    1      2
1    1      2
2    1      3
3    1      2
4    1      2
5    1      2
6    1      3
7    1      3
8    1      3
9    1      3
10   2      1
11   2      4
12   2      1
13   2      1
14   2      1
15   2      4
16   2      4
17   2      1
18   2      1
19   2      1
20   2      1
21   2      1

我需要做的是在id級別（df.groupby ['id']）識別，當值連續顯示相同的數字達3次或更多次時。

我希望以上結果如下：

df
Out[12]: 
    id  value  flag
0    1      2     0
1    1      2     0
2    1      3     0
3    1      2     1
4    1      2     1
5    1      2     1
6    1      3     1
7    1      3     1
8    1      3     1
9    1      3     1
10   2      1     0
11   2      4     0
12   2      1     1
13   2      1     1
14   2      1     1
15   2      4     0
16   2      4     0
17   2      1     1
18   2      1     1
19   2      1     1
20   2      1     1
21   2      1     1

我嘗試使用pandas rolling.mean來測試groupby和lambda的變體，以確定滾動周期的平均值然后與“值”進行比較，並且它們相同則表示標記。 但是這有幾個問題，包括你可能有不同的值，它們將平均值到你想要標記的值。 此外，我無法弄清楚如何“標記”創建初始標志的滾動平均值的所有值。 看到這里，這標識了標志的“右側”，但是我需要填充滾動平均長度的先前值。 在這里查看我的代碼：

test=df.copy()
test['rma']=test.groupby('id')['value'].transform(lambda x: x.rolling(min_periods=3,window=3).mean())
test['flag']=np.where(test.rma==test.value,1,0)

結果如下：

test
Out[61]: 
    id  value       rma  flag
0    1      2       NaN     0
1    1      2       NaN     0
2    1      3  2.333333     0
3    1      2  2.333333     0
4    1      2  2.333333     0
5    1      2  2.000000     1
6    1      3  2.333333     0
7    1      3  2.666667     0
8    1      3  3.000000     1
9    1      3  3.000000     1
10   2      1       NaN     0
11   2      4       NaN     0
12   2      1  2.000000     0
13   2      1  2.000000     0
14   2      1  1.000000     1
15   2      4  2.000000     0
16   2      4  3.000000     0
17   2      1  3.000000     0
18   2      1  2.000000     0
19   2      1  1.000000     1
20   2      1  1.000000     1
21   2      1  1.000000     1

迫不及待地想看看我錯過了什么！ 謝謝

Answer 1

你可以試試這個; 1）用df.value.diff().ne(0).cumsum() ）創建一個額外的組變量來表示值的變化; 2）使用transform('size')計算組大小並與3進行比較，然后獲得所需的flag列：

df['flag'] = df.value.groupby([df.id, df.value.diff().ne(0).cumsum()]).transform('size').ge(3).astype(int) 
df

分解：

1） diff不等於零 （字面意思是df.value.diff().ne(0)意味着）只要有值發生變化就給出條件True ：

df.value.diff().ne(0)
#0      True
#1     False
#2      True
#3      True
#4     False
#5     False
#6      True
#7     False
#8     False
#9     False
#10     True
#11     True
#12     True
#13    False
#14    False
#15     True
#16    False
#17     True
#18    False
#19    False
#20    False
#21    False
#Name: value, dtype: bool

2）然后cumsum給出一個非降序的id序列，其中每個id表示一個具有相同值的連續塊，注意在求和布爾值時， True被認為是1，而False被認為是0：

df.value.diff().ne(0).cumsum()
#0     1
#1     1
#2     2
#3     3
#4     3
#5     3
#6     4
#7     4
#8     4
#9     4
#10    5
#11    6
#12    7
#13    7
#14    7
#15    8
#16    8
#17    9
#18    9
#19    9
#20    9
#21    9
#Name: value, dtype: int64

3）結合id列，可以對數據幀進行分組，計算組大小並獲取flag列。

Answer 2

請參閱EDIT2以獲得更強大的解決方案

結果相同，但速度要快一些：

labels = (df.value != df.value.shift()).cumsum()
df['flag'] = (labels.map(labels.value_counts()) >= 3).astype(int)

    id  value  flag
0    1      2     0
1    1      2     0
2    1      3     0
3    1      2     1
4    1      2     1
5    1      2     1
6    1      3     1
7    1      3     1
8    1      3     1
9    1      3     1
10   2      1     0
11   2      4     0
12   2      1     1
13   2      1     1
14   2      1     1
15   2      4     0
16   2      4     0
17   2      1     1
18   2      1     1
19   2      1     1
20   2      1     1
21   2      1     1

哪里：

df.value != df.value.shift()給出值的變化
cumsum()為每個具有相同值的組創建“標簽”
labels.value_counts()計算每個標簽的出現次數
labels.map(...)用上面計算的計數替換標簽
>= 3在計數值上創建一個布爾掩碼
astype(int)將布爾值轉換為int

在我的手中它給你的df 1.03ms，而Psidoms的方法為2.1ms。 但我的不是單行。

編輯：

兩種方法之間的混合甚至更快

labels = df.value.diff().ne(0).cumsum()
df['flag'] = (labels.map(labels.value_counts()) >= 3).astype(int)

樣品df給出911μs。

EDIT2：正確的解決方案來解釋id更改，正如@ clg4所指出的那樣

labels = (df.value.diff().ne(0) | df.id.diff().ne(0)).cumsum()
df['flag'] = (labels.map(labels.value_counts()) >= 3).astype(int)

哪里... | df.id.diff().ne(0) ... | df.id.diff().ne(0)增加id變化的標簽

這甚至在id更改時使用相同的值（在索引10上使用值3進行測試）並且需要1.28ms

編輯3：更好的解釋

以索引10的值為3的情況df.id.diff().ne(0)

data={'id':[1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2],
      'value':[2,2,3,2,2,2,3,3,3,3,3,4,1,1,1,4,4,1,1,1,1,1]}
df=pd.DataFrame.from_dict(data)

df['id_diff'] = df.id.diff().ne(0).astype(int)
df['val_diff'] = df.value.diff().ne(0).astype(int)
df['diff_or'] = (df.id.diff().ne(0) | df.value.diff().ne(0)).astype(int)
df['labels'] = df['diff_or'].cumsum()

     id  value  id_diff  val_diff  diff_or  labels
 0    1      2        1         1        1       1
 1    1      2        0         0        0       1
 2    1      3        0         1        1       2
 3    1      2        0         1        1       3
 4    1      2        0         0        0       3
 5    1      2        0         0        0       3
 6    1      3        0         1        1       4
 7    1      3        0         0        0       4
 8    1      3        0         0        0       4
 9    1      3        0         0        0       4
>10   2      3        1    |    0    =   1       5 <== label increment
 11   2      4        0         1        1       6
 12   2      1        0         1        1       7
 13   2      1        0         0        0       7
 14   2      1        0         0        0       7
 15   2      4        0         1        1       8
 16   2      4        0         0        0       8
 17   2      1        0         1        1       9
 18   2      1        0         0        0       9
 19   2      1        0         0        0       9
 20   2      1        0         0        0       9
 21   2      1        0         0        0       9

| 是算子“按位或”，其給出True只要元件中的一個是True 。 因此，如果id沒有變化的值，那么| 反映了id的變化。 否則它什么都沒改變。 執行.cumsum() ，標簽會在id更改的位置遞增，因此索引10處的值3不會與索引6-9中的值3分組。

Answer 3

#try this simpler version
a= pd.Series([1,1,1,2,3,4,5,5,5,7,8,0,0,0])
b= a.groupby([a.ne(0), a]).transform('size').ge(3).astype('int')
#ge(x) <- x is the number of consecutive repeated values 
print b

Answer 4

df=pd.DataFrame.from_dict(
        {'id':[1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2],
         'value':[2,2,3,2,2,2,3,3,3,3,1,4,1,1,1,4,4,1,1,1,1,1]})

df2 = df.groupby((df['value'].shift() != df['value']).\
                cumsum()).filter(lambda x: len(x) >= 3)

df['flag'] = np.where(df.index.isin(df2.index),1,0)

使用Groupby在Pandas Dataframe中標識連續的相同值

問題描述

4 個解決方案

解決方案1
21 已采納 2017-08-25 17:20:45

解決方案2
2 2017-08-25 19:12:18

解決方案3
2 2018-04-05 18:27:16

解決方案4
0 2019-08-20 23:53:48

使用Groupby在Pandas Dataframe中標識連續的相同值

問題描述

4 個解決方案

解決方案1 21 已采納 2017-08-25 17:20:45

解決方案2 2 2017-08-25 19:12:18

解決方案3 2 2018-04-05 18:27:16

解決方案4 0 2019-08-20 23:53:48

解決方案1
21 已采納 2017-08-25 17:20:45

解決方案2
2 2017-08-25 19:12:18

解決方案3
2 2018-04-05 18:27:16

解決方案4
0 2019-08-20 23:53:48