如何根据 Python 中的特定列比较两个 Pandas DataFrame？

Question

我有两个 Pandas 数据帧：

a =
     ID  Index     Value
1   275      0  00000005
2  1024     27        01
3  1024     23        01

b = 
     ID  Index Value_x Value_y
1  1024     27      01      02
2  1024     23      01      02

我只想根据前三列获取不同的值，但只保留a的列 - 从而导致：

     ID  Index     Value
1   275      0  00000005

我试过先删除列，然后以这种方式进行比较，但这最终会创建不必要的 DataFrames 副本（现实世界 arrays 是 100k+ 行）。

Answer 1

您可以使用MultiIndex来执行此操作，而无需创建临时DataFrame或不必要地复制数据：

# 1
idx_a = pd.MultiIndex.from_frame(a.iloc[:, :3])
idx_b = pd.MultiIndex.from_frame(b.iloc[:, :3])

# 2
idx_diff = idx_a.difference(idx_b)

# 3
result = a.set_index(idx_a).reindex(idx_diff).reset_index(drop=True)

print(result)
    ID  Index     Value
0  275      0  00000005

从每个DataFrame的前 3 列创建MultiIndex对象
获取出现在idx_a中但不出现在idx_b中的索引值
使用这个差异索引对我们原来的DataFrame ( a ) 进行子集化

Answer 2

您可以使用merge with indicator=True和 slice on "left_only"：

cols = ['ID', 'Index']
c = (a.merge(b[cols], on=cols, how='outer', indicator=True)
      .loc[lambda x: x.pop('_merge').eq('left_only')])

output：

    ID  Index  Value
0  275      0      5

Answer 3

这是一种可能的方法。 您可以将两个数据框连接起来形成一个 dataframe，然后删除重复值。

import pandas as pd

a = [
    [275, 0, '00000005'],
    [283, 0, '00F0'],
    [1024, 27, '01']
]

b = [
    [283, 0, '00F0', '00E1'],
    [1024, 27, '01', '02']
]

# create dataframe for a and b
df_a = pd.DataFrame(a, columns=['ID', 'Index', 'Value'])
df_b = pd.DataFrame(b, columns=['ID', 'Index', 'Value_x', 'Value_y'])

# get difference of df_a and df_b based on ID and Index
df_diff = pd.concat([df_a[['ID', 'Index']], df_b[['ID', 'Index']]]).drop_duplicates(
    subset=['ID', 'Index'], keep=False)

print(df_diff)

Answer 4

你需要的是anti_join ：

>>> from datar.all import f, anti_join, tribble
>>> a = tribble(
...     f.ID,  f.Index,  f.Value,
...     275,   0,        "00000005",
...     1024,  27,       "01",
...     1024,  23,       "01",
... )
>>> b = tribble(
...     f.ID,  f.Index,  f.Value_x, f.Value_y,
...     1024,  23,       "01",      "02",
...     1024,  27,       "01",      "02",
... )
>>>
>>> a >> anti_join(b, by={"ID": "ID", "Index": "Index", "Value": "Value_x"})
       ID   Index     Value
  <int64> <int64>  <object>
0     275       0  00000005

我是datar package 的作者，它由 pandas 支持。如果您有任何疑问或问题，请告诉我。

如何根据 Python 中的特定列比较两个 Pandas DataFrame？

问题描述

4 个解决方案

解决方案1
2 2022-03-09 17:22:56

解决方案2
1 已采纳 2022-03-09 17:24:56

解决方案3
0 2022-03-09 17:04:30

解决方案4
0 2022-03-09 17:22:24

如何根据 Python 中的特定列比较两个 Pandas DataFrame？

问题描述

4 个解决方案

解决方案1 2 2022-03-09 17:22:56

解决方案2 1 已采纳 2022-03-09 17:24:56

解决方案3 0 2022-03-09 17:04:30

解决方案4 0 2022-03-09 17:22:24

解决方案1
2 2022-03-09 17:22:56

解决方案2
1 已采纳 2022-03-09 17:24:56

解决方案3
0 2022-03-09 17:04:30

解决方案4
0 2022-03-09 17:22:24