根据在两个熊猫数据框之间的多种条件选择来创建新列

Question

我有两个数据帧，其中包含（一些）公共列（A，B，C），但顺序不同，并且C的值不同。

我想用第二个数据框中的值替换第一个数据框中的“ C”值。

我可以创建一个像这样的玩具示例：

A = [ 1, 1, 1, 2, 2, 2, 3, 3, 3 ]
B = [ 'x', 'y', 'z', 'x', 'y', 'y', 'x', 'x', 'x' ]
C = [ 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i' ]

df1 = pd.DataFrame( { 'A' : A,
                      'B' : B,
                      'C' : C } )

A.reverse()
B.reverse()
C = [ c.upper() for c in reversed(C) ]

df2 = pd.DataFrame( { 'A' : A,
                      'B' : B,
                      'C' : C } )

我想更新df1，使其看起来像这样-即它具有df2中的'C'值：

A = [ 1, 1, 1, 2, 2, 2, 3, 3, 3 ]
B = [ 'x', 'y', 'z', 'x', 'y', 'y', 'x', 'x', 'x' ]
C = [ 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I' ]

我试过了：

df1['C'] =  df2[ (df2['A'] == df1['A']) & (df2['B'] == df1['B']) ]['C']

但这不起作用，因为我认为A和B的顺序不同。

Answer 1

merge_df = pd.merge(df1, df2, on=['A', 'B'])
df1['C'] = merge_df['C_y']

我认为您的玩具代码在C.reverse（）中的c的[c.upper（）中有问题。 C.reverse（）返回无。

Answer 2

这并不容易，因为列A和B （ 3,x ）中有重复项。 因此，我通过cumcount创建了新列D ，然后使用merge ，最后删除了不必要的列：

df1['D'] = df1.groupby(['A','B']).C.cumcount()
df2['D'] = df2.groupby(['A','B']).C.cumcount(ascending=False)

df3 = pd.merge(df1, df2, on=['A','B','D'], how='right', suffixes=('_',''))
df3 = df3.drop(['C_', 'D'], axis=1)
print (df3)
   A  B  C
0  1  x  A
1  1  y  B
2  1  z  C
3  2  x  D
4  2  y  E
5  2  y  F
6  3  x  G
7  3  x  H
8  3  x  I

根据在两个熊猫数据框之间的多种条件选择来创建新列

问题描述

2 个解决方案

解决方案1
2 已采纳 2017-02-15 13:51:18

解决方案2
0 2017-02-15 13:32:59

根据在两个熊猫数据框之间的多种条件选择来创建新列

问题描述

2 个解决方案

解决方案1 2 已采纳 2017-02-15 13:51:18

解决方案2 0 2017-02-15 13:32:59

解决方案1
2 已采纳 2017-02-15 13:51:18

解决方案2
0 2017-02-15 13:32:59