計算唯一行數 pandas

Question

我想計算 pandas dataframe 中的唯一行數，並添加一個新行作為 count_index ，如示例所示。 以另一種方式，我想復制重復行的索引。

import pandas as pd
df = {'A': [ 8,8,9,9,9,12,12,13,15,15,15],
      'B': [ 1,1,2,2,2,11,11,3,4,4,4],
      'C': [ 10,10,20,20,20,101,101,30,40,40,40],
      'D': [81,81,92,92,92,121,121,134,150,150,150]}
df = pd.DataFrame(df)

print(df.groupby(['A','B','C','D']).size())
#####################################################
      #input
   A    B      C     D
   8    1      10    81 
   8    1      10    81 
   9    2      20    92 
   9    2      20    92 
   9    2      20    92 
  12   11     101   121 
  12   11     101   121 
  13    3      30   134 
  15    4      40   150 
  15    4      40   150 
  15    4      40   150 
 ####################################################
#expected output
    A    B      C     D   Count_index
   8    1      10    81    1
   8    1      10    81    1
   9    2      20    92    2
   9    2      20    92    2  
   9    2      20    92    2
  12   11     101   121    3
  12   11     101   121    3
  13    3      30   134    4
  15    4      40   150    5
  15    4      40   150    5
  15    4      40   150    5

Answer 1

您可以通過計算倒置的.duplicated的數量來做到這一點。 然后，我們可以使用累積來保持對遇到的唯一行數的持續計數。

df['count_index'] = (~df.duplicated(keep="first")).cumsum()

print(df)
     A   B    C    D  count_index
0    8   1   10   81            1
1    8   1   10   81            1
2    9   2   20   92            2
3    9   2   20   92            2
4    9   2   20   92            2
5   12  11  101  121            3
6   12  11  101  121            3
7   13   3   30  134            4
8   15   4   40  150            5
9   15   4   40  150            5
10  15   4   40  150            5

Answer 2

您可以使用diff().ne(0)或df.ne(df.shift())的組合

df.diff().ne(0).all(axis=1).cumsum()

或者

df.ne(df.shift()).all(axis=1).cumsum()

Output：

計算唯一行數 pandas

問題描述

2 個解決方案

解決方案1
0 2022-08-29 21:55:38

解決方案2
0 2022-08-30 00:31:33

計算唯一行數 pandas

問題描述

2 個解決方案

解決方案1 0 2022-08-29 21:55:38

解決方案2 0 2022-08-30 00:31:33

解決方案1
0 2022-08-29 21:55:38

解決方案2
0 2022-08-30 00:31:33