如何通过比较列从另一个数据帧中过滤掉一个python pandas数据帧的行？

Question

I'm trying to exclude rows from one dataframe, which also occur in another dataframe: 我试图从一个数据帧中排除行，这也出现在另一个数据帧中：

import pandas

df = pandas.DataFrame({'A': ['Chr1', 'Chr1', 'Chr1','Chr1', 'Chr1', 'Chr1','Chr2','Chr2'], 'B': [10,20,30,40,50,60,15,20]})

errors = pandas.DataFrame({'A': ['Chr1', 'Chr1'], 'B': [20,50]})

As a result, the rows in df, that are equal to errors should be left out: 因此，应忽略df中等于错误的行：

df:
'A'    'B'
Chr1    10
Chr1    30
Chr1    40
Chr1    60
Chr2    15
Chr2    20

It doesn't seem to work with df.merge, and I don't want to iterate over all rows, since the dataframes get pretty large. 它似乎不适用于df.merge，我不想迭代所有行，因为数据帧变得非常大。

Best, 最好，

David 大卫

Answer 1

Add an extra column to errors 为错误添加额外的列

errors['temp'] = 1

Merge the two dataframes 合并两个数据帧

merged_df = pandas.merge(df,errors,how='outer')

Now keep only those rows which have 'temp' as NaN 现在只保留那些'temp'为NaN的行

merged_df = merged_df[ merged_df['temp'] != 1 ]
del merged_df['temp']

print merged_rdf

      A   B
 0  Chr1  10
 2  Chr1  30
 3  Chr1  40
 5  Chr1  60
 6  Chr2  15
 7  Chr2  20

Answer 2

您可以执行以下两列操作：

 print df[ ~df['A'].isin(errors['A']) | ~df['B'].isin(errors['B']) ]

如何通过比较列从另一个数据帧中过滤掉一个python pandas数据帧的行？

问题描述

2 个解决方案

解决方案1
7 2014-07-10 12:56:28

解决方案2
4 2014-07-10 13:16:39

如何通过比较列从另一个数据帧中过滤掉一个python pandas数据帧的行？

问题描述

2 个解决方案

解决方案1 7 2014-07-10 12:56:28

解决方案2 4 2014-07-10 13:16:39

解决方案1
7 2014-07-10 12:56:28

解决方案2
4 2014-07-10 13:16:39