相鄰行熊貓的分組條件總和

Question

我有一個數據框，已按用戶和時間排序

 df = pd.DataFrame({'user' : ['A', 'A', 'A', 'B', 'B', 'B','B'],
              'location' : ['house','house','gym','gym','shop','gym','gym'], 
              'duration':[10,5,5,4,10,4,6]})


   duration location user
0        10    house    A
1         5    house    A
2         5      gym    A
3         4      gym    B
4        10     shop    B
5         4      gym    B
6         6      gym    B

我只想在給定用戶的相鄰行中的“位置”字段相同時執行sum() 。 所以它不僅僅是df.groupby(['id','location']).duration.sum() 。 所需的輸出將如下所示。 此外，順序很重要。

duration location user
      15    house    A
       5      gym    A
       4      gym    B
      10     shop    B
      10      gym    B

謝謝！

Answer 1

提供sort=False以保留組之間的順序，就像它出現在原始DF中一樣。 然后，計算持續時間列的分組總和。

adj_check = (df.location != df.location.shift()).cumsum()
df.groupby(['user', 'location', adj_check], as_index=False, sort=False)['duration'].sum()

需要對您之前嘗試過的內容進行的唯一更改是這種條件，它將所有相似的連續行分組到一個唯一的組中：

(df.location != df.location.shift()).cumsum()
0    1
1    1
2    2
3    2
4    3
5    4
6    4
Name: location, dtype: int32

相鄰行熊貓的分組條件總和

問題描述

1 個解決方案

解決方案1
12 2017-01-12 19:06:59

相鄰行熊貓的分組條件總和

問題描述

1 個解決方案

解決方案1 12 2017-01-12 19:06:59

解決方案1
12 2017-01-12 19:06:59