合並具有多個列級別和數據框的多索引

Question

假設我有一個多索引mi ，如下所示：

        Serial No.               Date          
        A       B         A         B
0  816292  934609  27/01/17  27/01/17
1  983803  683858  25/01/17  26/01/17
2  596573  493741  27/01/17  28/01/17
3  199203  803515  28/01/17  28/01/17

A和B是兩個部分，因此multiindex包含有關兩個部分的多個實例的序列號和構建日期的信息。

我有一個數據幀df其中包含A部分的測試信息，如下所示：

        A    Test 1    Test 2    Test 3      
0  816292  0.934609  0.475035  0.822712
1  983803  0.683858  0.025861  0.691112
2  596573  0.493741  0.397398  0.489101
3  199203  0.803515  0.679537  0.308588

我希望能夠合並這兩個並產生類似

        Serial No.               Date                         Tests
        A       B         A         B    Test 1    Test 2    Test 3
0  816292  934609  27/01/17  27/01/17  0.934609  0.475035  0.822712
1  983803  683858  25/01/17  26/01/17  0.683858  0.025861  0.691112
2  596573  493741  27/01/17  28/01/17  0.493741  0.397398  0.489101
3  199203  803515  28/01/17  28/01/17  0.803515  0.679537  0.308588

我最初的嘗試是

mi = mi.merge(df,left_on=('Serial No.','A'),right_on='A',how='inner')

但這會產生ValueError: len(right_on) must equal len(left_on) 。 我嘗試向df添加一個額外的列索引'Tests' ，然后執行

mi = mi.merge(df,left_on=('Serial No.','A'),right_on=('Tests','A'),how='inner')

但這會產生KeyError: 'A'

Answer 1

最簡單的方法是修復df的列以匹配mi ：

In [11]: df
Out[11]:
        A    Test 1    Test 2    Test 3
0  816292  0.934609  0.475035  0.822712
1  983803  0.683858  0.025861  0.691112
2  596573  0.493741  0.397398  0.489101
3  199203  0.803515  0.679537  0.308588

In [12]: df.columns = pd.MultiIndex.from_arrays([["Serial No.", "Test", "Test", "Test"], df.columns])

In [13]: df
Out[13]:
  Serial No.      Test
           A    Test 1    Test 2    Test 3
0     816292  0.934609  0.475035  0.822712
1     983803  0.683858  0.025861  0.691112
2     596573  0.493741  0.397398  0.489101
3     199203  0.803515  0.679537  0.308588

然后合並將“正常工作”：

In [14]: df.merge(mi)
Out[14]:
  Serial No.      Test                     Serial No.      Date
           A    Test 1    Test 2    Test 3          B         A         B
0     816292  0.934609  0.475035  0.822712     934609  27/01/17  27/01/17
1     983803  0.683858  0.025861  0.691112     683858  25/01/17  26/01/17
2     596573  0.493741  0.397398  0.489101     493741  27/01/17  28/01/17
3     199203  0.803515  0.679537  0.308588     803515  28/01/17  28/01/17

有多種方法可以創建MultiIndex的頂層，在這里，我只是編寫了列表：

["Serial No.", "Test", "Test", "Test"]

手工...但是您可以生成它：它只是一個列表。

Answer 2

mi.set_index(('Serial No.', 'A')).join(
    pd.concat([df.set_index('A')], axis=1, keys=['Tests'])
).reset_index()

  Serial No.              Date               Tests                    
           A       B         A         B    Test 1    Test 2    Test 3
0     816292  934609  27/01/17  27/01/17  0.934609  0.475035  0.822712
1     983803  683858  25/01/17  26/01/17  0.683858  0.025861  0.691112
2     596573  493741  27/01/17  28/01/17  0.493741  0.397398  0.489101
3     199203  803515  28/01/17  28/01/17  0.803515  0.679537  0.308588

合並具有多個列級別和數據框的多索引

問題描述

2 個解決方案

解決方案1
2 已采納 2017-11-08 05:46:21

解決方案2
1 2017-11-08 05:45:55

合並具有多個列級別和數據框的多索引

問題描述

2 個解決方案

解決方案1 2 已采納 2017-11-08 05:46:21

解決方案2 1 2017-11-08 05:45:55

解決方案1
2 已采納 2017-11-08 05:46:21

解決方案2
1 2017-11-08 05:45:55