刪除 Pandas 數據框中所有元素的最佳方法是什么，其中一列中的值在另一列中多次存在？

Question

我有一個由幾棵樹組成的 DataFrame。 我想刪除在ToNode列中多次出現RootNode所有行。 但是， ToNode的節點可以出現多次，如果它不是根節點。

這是 df 的一個例子。

ToNode | FromNode | Root
  A        None      A  
  B         A        A
  C        None      C 
  A         C        C  
  B         A        C

在這里，我想刪除Root == A所有行，以便生成的 df 是

ToNode | FromNode | Root  
  C        None      C 
  A         C        C  
  B         A        C

實現此目的的一種方法（非常慢）如下：

root_list = list(df['Root'].unique())
for node in root_list:
  if len(df[df['ToNode'] == node]) > 1:
    df = df[df['Root'] != node]

我想有一種更快的方法，也許使用groupby()和transform()和/或map / apply 。

任何人都有關於如何加快速度的任何提示？

Answer 1

首先使用 groupby 找到所有出現>1 ToNode並在Root上過濾df

df2 = df.groupby(['ToNode'], as_index=False).count()
df[~df['Root'].isin(df2[df2['Root'] > 1]['ToNode'].unique())]

這給你以下結果。

    ToNode  FromNode    Root
2   C   None    C
3   A   C   C
4   B   A   C

Answer 2

您可以嘗試以下操作。

使用value_counts獲取計數
獲取計數 >= 2 滿足的索引
刪除那些行。

>>> df.apply(pd.Series.value_counts, axis=1)[['A']] >= 2
       A
0   True
1   True
2  False
3  False
4  False

>>> mask = df.apply(pd.Series.value_counts, axis=1)[['A']] >= 2
>>> mask[mask.A].index
Int64Index([0, 1], dtype='int64')

>>> idx = mask[mask.A].index
>>> df.drop(idx)
  ToNode FromNode Root
2      C     None    C
3      A        C    C
4      B        A    C

Answer 3

您可以將Series.value_counts和Series.isin與布爾索引一起使用。 ~這里是邏輯NOT ：

nodes_to_remove = df['ToNode'].value_counts()[lambda x: x > 1].index
#print(nodes_to_remove) Index(['A', 'B'], dtype='object')

df[~df['Root'].isin(nodes_to_remove)]

[出去]

  ToNode FromNode Root
2      C     None    C
3      A        C    C
4      B        A    C

刪除 Pandas 數據框中所有元素的最佳方法是什么，其中一列中的值在另一列中多次存在？

問題描述

3 個解決方案

解決方案1
1 2019-12-16 10:53:46

解決方案2
1 2019-12-16 11:04:37

解決方案3
1 已采納 2019-12-16 11:06:42

刪除 Pandas 數據框中所有元素的最佳方法是什么，其中一列中的值在另一列中多次存在？

問題描述

3 個解決方案

解決方案1 1 2019-12-16 10:53:46

解決方案2 1 2019-12-16 11:04:37

解決方案3 1 已采納 2019-12-16 11:06:42

解決方案1
1 2019-12-16 10:53:46

解決方案2
1 2019-12-16 11:04:37

解決方案3
1 已采納 2019-12-16 11:06:42