在兩個數據幀之間找到相等的列

Question

我有兩個pandas數據框a和b ：

a1   a2   a3   a4   a5   a6   a7
1    3    4    5    3    4    5
0    2    0    3    0    2    1
2    5    6    5    2    1    2

和

b1   b2   b3   b4   b5   b6   b7
3    5    4    5    1    4    3
0    1    2    3    0    0    2
2    2    1    5    2    6    5

這兩個數據框包含完全相同的數據，但順序不同，列名也不同。 根據兩個數據框中的數字，我希望能夠將a中的每個列名與b中的每個列名相匹配。

這並不像簡單地將a的第一行與b的第一行進行比較那么容易，因為存在重復值，例如a4和a7都具有值5因此不可能立即將它們與b2或b4匹配。

做這個的最好方式是什么？

Answer 1

這是利用廣播來檢查兩個數據幀之間的相等性並將all結果用於檢查所有行匹配的位置的一種方法。 然后我們可以從np.where的結果中獲得兩個數據np.where列名的索引數組（@piR 的貢獻）：

i, j = np.where((a.values[:,None] == b.values[:,:,None]).all(axis=0))
dict(zip(a.columns[j], b.columns[i]))
# {'a7': 'b2', 'a6': 'b3', 'a4': 'b4', 'a2': 'b7'}

Answer 2

這是使用sort_values一種方法：

m=df1.T.sort_values(by=[*df1.index]).index
n=df2.T.sort_values(by=[*df2.index]).index
d=dict(zip(m,n))
print(d)

{'a1': 'b5', 'a5': 'b1', 'a2': 'b7', 'a3': 'b6', 'a6': 'b3', 'a7': 'b2', 'a4': 'b4'}

Answer 3

一種merge

s=df1.T.reset_index().merge(df2.T.assign(match=lambda x : x.index))
dict(zip(s['index'],s['match']))
{'a1': 'b5', 'a2': 'b7', 'a3': 'b6', 'a4': 'b4', 'a5': 'b1', 'a6': 'b3', 'a7': 'b2'}

Answer 4

字典理解

使用列值的tuple作為字典中的可散列鍵

d = {(*t,): c for c, t in df2.items()}
{c: d[(*t,)] for c, t in df1.items()}

{'a1': 'b5',
 'a2': 'b7',
 'a3': 'b6',
 'a4': 'b4',
 'a5': 'b1',
 'a6': 'b3',
 'a7': 'b2'}

以防萬一我們沒有完美的表示，我只為有匹配的列生成了字典。

d2 = {(*t,): c for c, t in df2.items()}
d1 = {(*t,): c for c, t in df1.items()}

{d1[c]: d2[c] for c in {*d1} & {*d2}}

{'a5': 'b1',
 'a2': 'b7',
 'a7': 'b2',
 'a6': 'b3',
 'a3': 'b6',
 'a1': 'b5',
 'a4': 'b4'}

`idxmax`

這幾乎是荒謬的......實際上不要這樣做。

{c: df2.T.eq(df1[c]).sum(1).idxmax() for c in df1}

{'a1': 'b5',
 'a2': 'b7',
 'a3': 'b6',
 'a4': 'b4',
 'a5': 'b1',
 'a6': 'b3',
 'a7': 'b2'}

在兩個數據幀之間找到相等的列

問題描述

4 個解決方案

解決方案1
18 已采納 2020-01-13 17:18:52

解決方案2
16 2020-01-13 17:18:11

解決方案3
12 2020-01-13 17:20:03

解決方案4
8 2020-01-13 17:47:09

字典理解

`idxmax`

在兩個數據幀之間找到相等的列

問題描述

4 個解決方案

解決方案1 18 已采納 2020-01-13 17:18:52

解決方案2 16 2020-01-13 17:18:11

解決方案3 12 2020-01-13 17:20:03

解決方案4 8 2020-01-13 17:47:09

字典理解

idxmax

解決方案1
18 已采納 2020-01-13 17:18:52

解決方案2
16 2020-01-13 17:18:11

解決方案3
12 2020-01-13 17:20:03

解決方案4
8 2020-01-13 17:47:09

`idxmax`