Pandas：根据多个列值删除行

Question

for x,y in tuples:   
    df = df.drop(df[df.B==x && df.C==y].index)

也许有一种更简单的方法。

Answer 1

使用pandas索引

df.set_index(list('BC')).drop(tuples, errors='ignore').reset_index()

定时

def linear_indexing_based(df, tuples):
    idx = np.array(tuples)
    BC_arr = df[['B','C']].values
    shp = np.maximum(BC_arr.max(0)+1,idx.max(0)+1)
    BC_IDs = np.ravel_multi_index(BC_arr.T,shp)
    idx_IDs = np.ravel_multi_index(idx.T,shp)
    return df[~np.in1d(BC_IDs,idx_IDs)]

def divakar(df, tuples):
    idx = np.array(tuples)
    mask = (df.B.values == idx[:, None, 0]) & (df.C.values == idx[:, None, 1])
    return df[~mask.any(0)]

def pirsquared(df, tuples):
    return df.set_index(list('BC')).drop(tuples).reset_index()

10行，1元组

np.random.seed([3,1415])
df = pd.DataFrame(np.random.choice(range(10), (10, 3)), columns=list('ABC'))
tuples = [tuple(row) for row in np.random.choice(range(10), (1, 2))]

10,000行，500元组

np.random.seed([3,1415])
df = pd.DataFrame(np.random.choice(range(10), (10000, 3)), columns=list('ABC'))
tuples = [tuple(row) for row in np.random.choice(range(10), (500, 2))]

Answer 2

方法＃1

这是使用NumPy's broadcasting的矢量化方法 -

def broadcasting_based(df, tuples):
    idx = np.array(tuples)
    mask = (df.B.values == idx[:, None, 0]) & (df.C.values == idx[:, None, 1])
    return df[~mask.any(0)]

样品运行 -

In [224]: df
Out[224]: 
   A  B  C
0  6  4  4
1  2  0  3
2  8  3  4
3  7  8  3
4  6  7  8
5  3  3  2
6  5  4  2
7  2  4  7
8  6  1  6
9  1  1  1

In [225]: tuples = [(3,4),(7,8),(1,6)]

In [226]: broadcasting_based(df,tuples)
Out[226]: 
   A  B  C
0  6  4  4
1  2  0  3
3  7  8  3
5  3  3  2
6  5  4  2
7  2  4  7
9  1  1  1

方法＃2：覆盖通用数量的列

对于这样的情况，可以将来自不同列的信息折叠成一个表示所有列中唯一性的单个条目。 这可以通过将每一行视为索引元组来实现。 因此，基本上每行将成为一个条目。 类似地，要匹配的元组列表中的每个条目可以减少为1D阵列，每个元组变为一个标量。 最后，我们使用np.in1d查找对应关系，获取有效掩码并删除所需的行数据帧，因此，实现将是 -

def linear_indexing_based(df, tuples):
    idx = np.array(tuples)
    BC_arr = df[['B','C']].values
    shp = np.maximum(BC_arr.max(0)+1,idx.max(0)+1)
    BC_IDs = np.ravel_multi_index(BC_arr.T,shp)
    idx_IDs = np.ravel_multi_index(idx.T,shp)
    return df[~np.in1d(BC_IDs,idx_IDs)]

Answer 3

使用布尔索引可能比对DataFrame.drop的一堆调用更DataFrame.drop 。 这是因为Pandas不必在每次循环迭代中重新分配内存。

m = pd.Series(False, index=df.index)
for x,y in tuples:
    m |= (df.B == x) & (df.C == y)
df = df[~m]

Pandas：根据多个列值删除行

问题描述

3 个解决方案

解决方案1
6 已采纳 2016-07-22 22:32:59

定时

解决方案2
4 2016-07-22 22:35:34

解决方案3
0 2016-07-22 22:18:50

Pandas：根据多个列值删除行

问题描述

3 个解决方案

解决方案1 6 已采纳 2016-07-22 22:32:59

定时

解决方案2 4 2016-07-22 22:35:34

解决方案3 0 2016-07-22 22:18:50

解决方案1
6 已采纳 2016-07-22 22:32:59

解决方案2
4 2016-07-22 22:35:34

解决方案3
0 2016-07-22 22:18:50