根據另一個 dataframe 中的信息填充一個 dataframe

Question

我有兩個大型數據框，但為了方便起見，我只展示了其中的一小部分。 一種形式如下（表 1）：

| Country |   Date   | flag | M   | notes     |  V |
|--------------------------------------------------|
| UK      | 20210319 |  1   | 3.0 | No Change | C1 |
| UK      | 20210320 |  0   | 2.0 | Extension | C2 |
| USA     | 20210405 |  0   | 4.0 | New Policy| C1 |
| CAN     | 20210405 |  0   | 1.0 | Update    | C3 |

另一種形式為（表2）：

| Country |   Date   |  C1 | C1_flag | C1_notes | 
|-----------------------------------------------|
| UK      | 20210319 | NaN |   NaN   | NaN      | 
| USA     | 20210405 | NaN |   NaN   | NaN      |
| AUS     | 20210505 | NaN |   NaN   | NaN      |
| NZ      | 20210506 | NaN |   NaN   | NaN      |

在“C1_notes”列之后，還有其他列（C2、C2_flag 和 C2_notes）。 實際上，此列結構存在於第一個表的“V”列中的以下代碼（C1、C2、C3、C4、C5、E1、E2、H1、H2、H3），但為簡潔起見，我只顯示表 2 中的 C1。

我希望使用表 1 中的信息填充表 2，以便最終具有以下形式：

| Country |   Date   |  C1 | C1_flag | C1_notes  |
|------------------------------------------------|
| UK      | 20210319 | 3.0 |   1     | No Change | 
| USA     | 20210405 | 4.0 |   0     | New Policy|
| AUS     | 20210505 | NaN |   NaN   | NaN       |
| NZ      | 20210506 | NaN |   NaN   | NaN       |

其中表 2 中的“C1”列使用表 1 的“M”列作為它們的值，同樣，“C1_flag”列使用“標志”列。 表 2 的填充是基於表 2 中的“國家”和“日期”列與表 1 中的對應項匹配。

我希望“合並”類型的操作可以處理這個問題，但問題是值 (C1...H3) 是表 1 中的列值，但表 2 中的列名。我還認為這是一個Pandas 中的 Pivot/Stack/Melt 類型操作，但事實並非如此，可能需要更通用的映射。 我將如何執行這種對應（既適用於 C1，也適用於其他 C、E 和 H 代碼）？ 謝謝。

Answer 1

Restructure第一個 dataframe / manipulate columns ，然后使用重組后的 dataframe update其他 dataframe。

k = df1.pivot(index=['Country','Date'] , columns= ['V'] , values= ['flag','M','notes'])
k.columns = ['_'.join(col[::-1]) if 'M' not in col else col[-1] for col in k.columns]
k = k[sorted(k.columns)]
df2 = df2.set_index(['Country', 'Date'])
df2.update(k)

OUTPUT：

                   C1 C1_flag   C1_notes
Country Date                            
UK      20210319  3.0       1   NoChange
USA     20210405  4.0       0  NewPolicy
AUS     20210505  NaN     NaN        NaN
NZ      20210506  NaN     NaN        NaN

完整代碼：

from numpy import nan

d1 = {'Country': {0: 'UK', 1: 'UK', 2: 'USA', 3: 'CAN'}, 'Date': {0: 20210319, 1: 20210320, 2: 20210405, 3: 20210405}, 'flag': {0: 1, 1: 0, 2: 0, 3: 0},
      'M': {0: 3.0, 1: 2.0, 2: 4.0, 3: 1.0}, 'notes': {0: 'NoChange', 1: 'Extension', 2: 'NewPolicy', 3: 'Update'}, 'V': {0: 'C1', 1: 'C2', 2: 'C1', 3: 'C3'}}
d2 = {'Country': {0: 'UK', 1: 'USA', 2: 'AUS', 3: 'NZ'}, 'Date': {0: 20210319, 1: 20210405, 2: 20210505, 3: 20210506}, 'C1': {
    0: nan, 1: nan, 2: nan, 3: nan}, 'C1_flag': {0: nan, 1: nan, 2: nan, 3: nan}, 'C1_notes': {0: nan, 1: nan, 2: nan, 3: nan}}
df1 = pd.DataFrame(d1)
df2 = pd.DataFrame(d2)
k = df1.pivot(index=['Country', 'Date'], columns=[
              'V'], values=['flag', 'M', 'notes'])
k.columns = ['_'.join(col[::-1]) if 'M' not in col else col[-1]
             for col in k.columns]
k = k[sorted(k.columns)]
df2 = df2.set_index(['Country', 'Date'])
df2.update(k)

根據另一個 dataframe 中的信息填充一個 dataframe

問題描述

1 個解決方案

解決方案1
1 已采納 2021-05-26 15:56:18

根據另一個 dataframe 中的信息填充一個 dataframe

問題描述

1 個解決方案

解決方案1 1 已采納 2021-05-26 15:56:18

解決方案1
1 已采納 2021-05-26 15:56:18