根据值以批处理方式删除pandas数据框的行和列

Question

背景：我有一个矩阵，代表两个点之间的距离。 在此矩阵中，行和列都是数据点。 例如：

   A   B   C
 A 0   999 3
 B 999 0   999
 C 3   999 0

在这个玩具示例中，假设我出于某些原因要删除C，因为它离任何其他点都很远。 因此，我首先汇总计数：

df["far_count"] = df[df == 999].count()

然后批量删除它们：

df = df[df["far_count"] == 2]

在此示例中，这看起来有点多余，但是请想象一下，我有很多这样的数据点（比如说10Ks的顺序）

上述批量删除的问题在于我想同时删除行和列（而不是仅删除行），而且我不清楚如何优雅地删除行和列。 天真的方法是获取此类数据点的列表并将其放入循环中，然后：

for item in list:
  df.drop(item, axis=1).drop(item, axis=0)

但是我想知道是否有更好的方法。 （如果我们可以跳过中间步骤far_count那么很far_count ）

Answer 1

np.random.seed([3,14159])
idx = pd.Index(list('ABCDE'))
a = np.random.randint(3, size=(5, 5))
df = pd.DataFrame(
    a.T.dot(a) * (1 - np.eye(5, dtype=int)),
    idx, idx)

df

   A  B  C  D  E
A  0  4  2  4  2
B  4  0  1  5  2
C  2  1  0  2  6
D  4  5  2  0  3
E  2  2  6  3  0

l = ['A', 'C']
m = df.index.isin(l)

df.loc[~m, ~m]

   B  D  E
B  0  5  2
D  5  0  3
E  2  3  0

对于您的特定情况，由于数组是对称的，因此只需要检查一个维度即可。

m = (df.values == 999).sum(0) == len(df) - 1

Answer 2

In [66]: x = pd.DataFrame(np.triu(df), df.index, df.columns)

In [67]: x
Out[67]:
   A    B    C
A  0  999    3
B  0    0  999
C  0    0    0

In [68]: mask = x.ne(999).all(1) | x.ne(999).all(0)

In [69]: df.loc[mask, mask]
Out[69]:
   A  C
A  0  3
C  3  0

根据值以批处理方式删除pandas数据框的行和列

问题描述

2 个解决方案

解决方案1
2 已采纳 2017-09-14 21:23:19

解决方案2
2 2017-09-14 21:26:22

根据值以批处理方式删除pandas数据框的行和列

问题描述

2 个解决方案

解决方案1 2 已采纳 2017-09-14 21:23:19

解决方案2 2 2017-09-14 21:26:22

解决方案1
2 已采纳 2017-09-14 21:23:19

解决方案2
2 2017-09-14 21:26:22