匹配来自两个不同数据帧的列值并配对观察值

Question

所以我不知道该怎么做，看了半天我还没有找到我的解决方案。

我的数据看起来像这样

import pandas as pd

df1 = pd.DataFrame(
    [['132','233','472','098'], ['482','214','980',''], ['107','','',''], 
    ['571','498','',''],], columns=["p1", "p2", "p3", "p4"])
df2 = pd.DataFrame(['532','233','980','132', '298'], columns=["p"])

df1
    p1      p2      p3
0   132     233     472
1   482     214     980
2   107         
3   571     498     

df2
    p
0   532
1   233
2   980
3   132
4   298

我希望将 p 列中的值与 p{1-3} 列中的任何一个值匹配，并创建一个包含匹配字符串的新列。

所以在这种情况下，我想要的 output 是

df_output

    p1      p2      p3    matched_p 
0   132     233     472   233
1   482     214     980   980
2   107         
3   571     498

我尝试了以下

filter1 = df1['p1'].isin(df2['p'])
filter2 = df1['p2'].isin(df2['p'])
filter3 = df1['p3'].isin(df2['p'])
df1['matched_p'] = df2['p'][filter1 | filter2 | filter3]

但是，这给了我毫无意义的结果。

关于如何解决这个问题的任何想法？

Answer 1

你可以试试这个。 在轴 1 上使用带有df.max的df.isin和df.where 。

df1 = df1.replace('',np.nan).astype(float) # to convert everything to float.
df2 = df2.astype(float) #to convert everything to float.
m = df1.isin(df2['p'].to_numpy())
df1['matched_values'] = df1.where(m,0).max(1)
df1

      p1     p2     p3    p4  matched_values
0  132.0  233.0  472.0  98.0           233.0
1  482.0  214.0  980.0   NaN           980.0
2  107.0    NaN    NaN   NaN             NaN
3  571.0  498.0    NaN   NaN             NaN

如果您不想将 dtypes 转换为float 。

灵感来自@Erfan 的解决方案。 我结合了我们的方法。

df1['matched'] = (df1.where(
                  df1.isin(df2['p'].to_numpy()),'').
                  add(',').sum(1).str.strip(','))

Answer 2

我们可以在这里使用stack和unstack以及isin和一些字符串操作。 这也将考虑多个匹配项：

d1 = df1.stack()
d1 = d1.where(d1.isin(df2['p'])).unstack().fillna('')
d1 = d1.add(',').sum(axis=1).str.strip(',')

df1['matched_p'] = d1

    p1   p2   p3   p4 matched_p
0  132  233  472  098   132,233
1  482  214  980            980
2  107                         
3  571  498

Answer 3

set1 = set(df2['p'])

df1['p'] = df1.apply(lambda x: {x['p1'], x['p2'], x['p3'], x['p4']}.intersection(set1), axis=1)
df1['p'] = df1['p'].map(lambda x: x.pop() if x else '')

匹配来自两个不同数据帧的列值并配对观察值

问题描述

3 个解决方案

解决方案1
2 已采纳 2020-06-03 18:40:40

解决方案2
2 2020-06-03 18:42:24

解决方案3
0 2020-06-03 18:33:52

匹配来自两个不同数据帧的列值并配对观察值

问题描述

3 个解决方案

解决方案1 2 已采纳 2020-06-03 18:40:40

解决方案2 2 2020-06-03 18:42:24

解决方案3 0 2020-06-03 18:33:52

解决方案1
2 已采纳 2020-06-03 18:40:40

解决方案2
2 2020-06-03 18:42:24

解决方案3
0 2020-06-03 18:33:52