熊貓：列舉每個組中的項目

Question

我有一個像

    id   chi  prop   ord 
0   100   L    67     0 
1   100   L    68     1 
2   100   L    68     2 
3   100   L    68     3 
4   100   L    70     0 
5   100   L    71     0 
6   100   R    67     0 
7   100   R    68     1 
8   100   R    68     2 
9   100   R    68     3 
10  110   R    70     0 
11  110   R    71     0 
12  101   L    67     0 
13  101   L    68     0 
14  101   L    69     0 
15  101   L    71     0 
16  101   L    72     0 
17  201   R    67     0 
18  201   R    68     0 
19  201   R    69     0

當（ prop ， chi和id ）都具有相同的值時， ord本質上給出了條目的順序。 這不是我想要的。 相反，我希望能夠枚舉{(id, chi)}中每個組g的項，從0到n_g，其中n_g是組g的大小。 所以我想獲得看起來像

    id   chi  prop   count 
0   100   L    67     0 
1   100   L    68     1 
2   100   L    68     2 
3   100   L    68     3 
4   100   L    70     4 
5   100   L    71     5 
6   100   R    67     0 
7   100   R    68     1 
8   100   R    68     2 
9   100   R    68     3 
10  110   R    70     0 
11  110   R    71     1 
12  101   L    67     0 
13  101   L    68     1 
14  101   L    69     2 
15  101   L    71     3 
16  101   L    72     4 
17  201   R    67     0 
18  201   R    68     1 
19  201   R    69     2

我想知道是否有一種簡單的方法可以對付pandas 。 下面非常接近，但感覺太復雜，它由於某種原因不會讓我join與原所產生的數據幀。

(df.groupby(['id', 'chi'])
   .apply(lambda g: np.arange(g.shape[0]))
   .apply(pd.Series, 1)
   .stack()
   .rename('counter')
   .reset_index()         
   .drop(columns=['level_2']))

編輯：當然，第二種方法是for循環方法，但是我正在尋找比“ Pythonic”更多的東西：

for gname, idx in df.groupby(['id','chi']).groups.items():
    tmp = df.loc[idx]
    df.loc[idx, 'counter'] = np.arange(tmp.shape[0])

R有使用tidyverse包實現此行為的非常簡單的方法，但是我還沒有找到使用pandas實現相同目標的有效方法。 提供的任何幫助將不勝感激！

Answer 1

`cumcount`

df.assign(ord=df.groupby(['id', 'chi']).cumcount())

     id chi  prop  ord
0   100   L    67    0
1   100   L    68    1
2   100   L    68    2
3   100   L    68    3
4   100   L    70    4
5   100   L    71    5
6   100   R    67    0
7   100   R    68    1
8   100   R    68    2
9   100   R    68    3
10  110   R    70    0
11  110   R    71    1
12  101   L    67    0
13  101   L    68    1
14  101   L    69    2
15  101   L    71    3
16  101   L    72    4
17  201   R    67    0
18  201   R    68    1
19  201   R    69    2

`defaultdict`和`count`

from itertools import count
from collections import defaultdict

d = defaultdict(count)

df.assign(ord=[next(d[t]) for t in zip(df.id, df.chi)])

     id chi  prop  ord
0   100   L    67    0
1   100   L    68    1
2   100   L    68    2
3   100   L    68    3
4   100   L    70    4
5   100   L    71    5
6   100   R    67    0
7   100   R    68    1
8   100   R    68    2
9   100   R    68    3
10  110   R    70    0
11  110   R    71    1
12  101   L    67    0
13  101   L    68    1
14  101   L    69    2
15  101   L    71    3
16  101   L    72    4
17  201   R    67    0
18  201   R    68    1
19  201   R    69    2

熊貓：列舉每個組中的項目

問題描述

1 個解決方案

解決方案1
4 已采納 2018-09-10 18:00:08

`cumcount`

`defaultdict`和`count`

熊貓：列舉每個組中的項目

問題描述

1 個解決方案

解決方案1 4 已采納 2018-09-10 18:00:08

cumcount

defaultdict和count

解決方案1
4 已采納 2018-09-10 18:00:08

`cumcount`

`defaultdict`和`count`