在熊貓中獲取數據框中重復行的所有ID

Question

假設我們有一個具有重復行的數據框df 。 我想存儲唯一行的ID，以便每個行都有一個關聯的整數列表（它們在數據框中出現的ID）。

讓我舉一個例子：

import numpy as np
import pandas as pd

np.random.seed(0)
m = ['a','b']
M = ['X','Y']
n = np.arange(3)
size = 10
df = pd.DataFrame({'m': np.random.choice(m, size=size, replace=True),
                   'M': np.random.choice(M, size=size, replace=True),
                   'n': np.random.choice(n, size=size, replace=True)})

這將生成以下數據框：

我相信我想做類似df.groupby(df.columns.tolist()).size()事情，但是我不想獲取出現的次數，而是想要獲得它們出現的位置。 因此，在這種情況下，所需的輸出將是（例如，以字典形式）：

output = {('a','Y',1):[3],
          ('a','Y',2):[0],
          ('b','X',0):[2,7],
          ('b','X',1):[4,5,6,8],
          ('b','X',2):[1],
          ('b','Y',0):[9]
          }

我怎樣才能做到這一點？ 這樣做的想法是盡可能地高效，因為數據框可以具有幾列和成千上萬（甚至幾百萬）行。

Answer 1

你有groups

df.groupby(list(df)).groups
Out[176]: 
{('a', 'Y', 1): Int64Index([3], dtype='int64'),
 ('a', 'Y', 2): Int64Index([0], dtype='int64'),
 ('b', 'X', 0): Int64Index([2, 7], dtype='int64'),
 ('b', 'X', 1): Int64Index([4, 5, 6, 8], dtype='int64'),
 ('b', 'X', 2): Int64Index([1], dtype='int64'),
 ('b', 'Y', 0): Int64Index([9], dtype='int64')}

在熊貓中獲取數據框中重復行的所有ID

問題描述

1 個解決方案

解決方案1
5 已采納 2018-11-14 18:52:21

在熊貓中獲取數據框中重復行的所有ID

問題描述

1 個解決方案

解決方案1 5 已采納 2018-11-14 18:52:21

解決方案1
5 已采納 2018-11-14 18:52:21