在同一熊貓數據框中合並兩列

Question

我有一個必須合並多對列的數據框。 這些列包含互斥數據。 也就是說，如果列A中有一個值，則列B中該行的值將為空。

df = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
               'A': ['A0', '', 'A2', ''],
               'B': ['', 'B1', '', 'B3'],
               'C': ['C1','C2','',''],
               'D': ['','','D3','D4']})

所以我有這樣的事情：

    A   B   C   D key
0  A0      C1      K0
1      B1  C2      K1
2  A2          D3  K2
3      B3      D4  K3

我想合並A列和B列，以便所有值最終都在A列中。我還希望以C和D形式進行此操作，同時保持索引和其他任何列（如Key）不變。 我可以分多個步驟進行操作。 我不需要同時進行AB合並和CD合並。 理想情況下，我最終得到：

    A   C key
0  A0  C1  K0
1  B1  C2  K1
2  A2  D3  K2
3  B3  D4  K3

我已經嘗試過df = df.A.combine_first(df.B)但那無濟於事。

Answer 1

這是使用zip來匹配每兩列的解決方案

li = zip(df.columns[0::2],df.columns[1::2])
#[('A', 'B'), ('C', 'D')] 
# I assume columns are pairs and end up with lenght as odd number with additional column.
# If you want to ignore last column manually you can use 
# li = zip(df.columns[0:-1:2],df.columns[1:-1:2]) # slice `start:end:step`

temp = pd.DataFrame({i :df[i]+df[j] for i,j in li})

ndf = pd.concat([temp,df['key']],1)

#    A   C key
# 0  A0  C1  K0
# 1  B1  C2  K1
# 2  A2  D3  K2
# 3  B3  D4  K3

Answer 2

如果您可以先將空字符串轉換為NaN，則可以嘗試通過以下方式使用Series.fillna ：

import numpy as np

df = df.replace('', np.nan)

df.A = df.A.fillna(df.B)
df.C = df.C.fillna(df.D)

這使：

df

    A    B   C    D key
0  A0  NaN  C1  NaN  K0
1  B1   B1  C2  NaN  K1
2  A2  NaN  D3   D3  K2
3  B3   B3  D4   D4  K3

這將用B列中的值填充A列中的缺失值，然后將結果序列設置為df A列。 我們可以使用循環將這種想法擴展到多列的情況：

l_cols = df.columns[0::2]  # Left columns in the pairs
r_cols = df.columns[1::2]  # Right columns in the pairs  

# Go through each pair
for l, r in zip(l_cols, r_cols):
    df[l] = df[r].fillna(df[r])

可以使用以下命令從輸出中排除用於合並的列：

df = df.drop(r_cols, axis=1)

在同一熊貓數據框中合並兩列

問題描述

2 個解決方案

解決方案1
3 已采納 2017-12-01 17:41:46

解決方案2
2 2017-12-01 17:31:02

在同一熊貓數據框中合並兩列

問題描述

2 個解決方案

解決方案1 3 已采納 2017-12-01 17:41:46

解決方案2 2 2017-12-01 17:31:02

解決方案1
3 已采納 2017-12-01 17:41:46

解決方案2
2 2017-12-01 17:31:02