使用具有重復值的列作為 Pandas 中的數據框索引

Question

我想使用具有重復值的列為數據框設置索引。 Pandas有什么辦法可以自動添加第二個索引，這樣當第一個索引重復時，第二個索引就會增加？

例如：

   ID              name  company           position
   ------------------------------------------------
0  23      Alex Monoson   Coobit      Sales manager
1  12    Johnny Johnson   Coobit  Marketing manager
2  62         Hans Dupa    Pesik  Marketing manager
3  31    Jessica Heiler  Montino           Engineer
4  92  Dominic Alvorine  Montino                CFO
5  16           Hei Lee   Coobit                CEO

我想使用company作為索引，並且會有另一個 integer 索引列

我預期的 output：

                    ID    name    position
company
------------------------------------------
Coobit      0       blah  blah        blah
Coobit      1       blah  blah        blah
Coobit      2       blah  blah        blah
Pesik       0       blah  blah        blah
Montino     0       blah  blah        blah
Montino     1       blah  blah        blah

Answer 1

我們可以使用cumcount

df['index2']=df.groupby('company').cumcount()
df=df.set_index(['company','index2']).sort_index()

使用具有重復值的列作為 Pandas 中的數據框索引

問題描述

1 個解決方案

解決方案1
1 已采納 2019-11-08 03:39:57

使用具有重復值的列作為 Pandas 中的數據框索引

問題描述

1 個解決方案

解決方案1 1 已采納 2019-11-08 03:39:57

解決方案1
1 已采納 2019-11-08 03:39:57