如何获取数据框中所有重复项的索引（pandas-python）

Question

我有一个包含多列的数据框，我想在其中一些列中找到重复项。 我的列从A到Z.我想知道哪些行在A，D，F，K，L和G列中具有相同的值。

我试过了：

df = df[df.duplicated(keep=False)]
df = df.groupby(df.columns.tolist()).apply(lambda x: tuple(x.index)).tolist()

但是，这会使用所有列。

我也试过了

print(df[df.duplicated(['A', 'D', 'F', 'K', 'L', 'P'])])

这只返回重复的索引。 我希望两行的索引具有相同的值。

Answer 1

你的最后一次尝试很接近。 不要使用所有列进行分组，只需使用您要考虑的列表：

df = pd.DataFrame({'A': [1, 1, 1, 2, 2, 2],
                   'B': [3, 3, 3, 4, 4, 5],
                   'C': [6, 7, 8, 9, 10, 11]})

res = df.groupby(['A', 'B']).apply(lambda x: (x.index).tolist()).reset_index()

print(res)

#    A  B          0
# 0  1  3  [0, 1, 2]
# 1  2  4     [3, 4]
# 2  2  5        [5]

Answer 2

groupby不同布局

df.index.to_series().groupby([df['A'],df['B']]).apply(list)
Out[449]: 
A  B
1  3    [0, 1, 2]
2  4       [3, 4]
   5          [5]
dtype: object

Answer 3

你可以让.groupby返回一个dict ，键是组标签（多列的元组），值是索引

df.groupby(['A', 'B']).groups

#{(1, 3): Int64Index([0, 1, 2], dtype='int64'),
# (2, 4): Int64Index([3, 4], dtype='int64'),
# (2, 5): Int64Index([5], dtype='int64')}

如何获取数据框中所有重复项的索引（pandas-python）

问题描述

3 个解决方案

解决方案1
2 已采纳 2019-01-16 18:20:26

解决方案2
2 2019-01-16 18:41:23

解决方案3
1 2019-01-16 19:03:20

如何获取数据框中所有重复项的索引（pandas-python）

问题描述

3 个解决方案

解决方案1 2 已采纳 2019-01-16 18:20:26

解决方案2 2 2019-01-16 18:41:23

解决方案3 1 2019-01-16 19:03:20

解决方案1
2 已采纳 2019-01-16 18:20:26

解决方案2
2 2019-01-16 18:41:23

解决方案3
1 2019-01-16 19:03:20