繁体   English   中英

在熊猫中获取数据框中重复行的所有ID

[英]Get all IDs of repeated rows in dataframe in Pandas

假设我们有一个具有重复行的数据框df 我想存储唯一行的ID,以便每个行都有一个关联的整数列表(它们在数据框中出现的ID)。

让我举一个例子:

import numpy as np
import pandas as pd

np.random.seed(0)
m = ['a','b']
M = ['X','Y']
n = np.arange(3)
size = 10
df = pd.DataFrame({'m': np.random.choice(m, size=size, replace=True),
                   'M': np.random.choice(M, size=size, replace=True),
                   'n': np.random.choice(n, size=size, replace=True)})

这将生成以下数据框:

   m  M  n
0  a  Y  2
1  b  X  2
2  b  X  0
3  a  Y  1
4  b  X  1
5  b  X  1
6  b  X  1
7  b  X  0
8  b  X  1
9  b  Y  0

我相信我想做类似df.groupby(df.columns.tolist()).size()事情,但是我不想获取出现的次数,而是想要获得它们出现的位置 因此,在这种情况下,所需的输出将是(例如,以字典形式):

output = {('a','Y',1):[3],
          ('a','Y',2):[0],
          ('b','X',0):[2,7],
          ('b','X',1):[4,5,6,8],
          ('b','X',2):[1],
          ('b','Y',0):[9]
          }

我怎样才能做到这一点? 这样做的想法是尽可能地高效,因为数据框可以具有几列和成千上万(甚至几百万)行。

你有groups

df.groupby(list(df)).groups
Out[176]: 
{('a', 'Y', 1): Int64Index([3], dtype='int64'),
 ('a', 'Y', 2): Int64Index([0], dtype='int64'),
 ('b', 'X', 0): Int64Index([2, 7], dtype='int64'),
 ('b', 'X', 1): Int64Index([4, 5, 6, 8], dtype='int64'),
 ('b', 'X', 2): Int64Index([1], dtype='int64'),
 ('b', 'Y', 0): Int64Index([9], dtype='int64')}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM