在DataFrame之間復制現有列

Question

有一個具有10個列（a，b，c ...）的DataFrame和另一個較小的列，其中僅3個列（d，f，h），從第二個復制列的“最佳”方法是什么DataFrame到第一個？

下面的代碼似乎可以解決問題，但是我想知道是否應該使用join，merge或其他方式（以獲得更好的性能/更干凈的代碼）？

dfOutput = pd.DataFrame(columns=['a','b','c','d','e','f','g','h','i','j'])
melted = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=['d','h','i'])

dfOutput[melted.columns] = melted[melted.columns]

Answer 1

我相信你需要df.merge()和df.reindex() ：

melted.merge(dfOutput,on=['d','h','i'],how='left').reindex(dfOutput.columns,axis=1)

    a   b   c   d   e   f   g   h   i   j
0   NaN NaN NaN 1   NaN NaN NaN 2   3   NaN
1   NaN NaN NaN 4   NaN NaN NaN 5   6   NaN
2   NaN NaN NaN 7   NaN NaN NaN 8   9   NaN

您可以將其重新分配給第一個數據框：

dfOutput = melted.merge(dfOutput,on=['d','h','i'],how='left').reindex(dfOutput.columns,axis=1)

方案2 ：如果某些列中已經有數據，請使用dfOutput.update(melted)將第二個數據幀更新為第一個數據幀：

例如：

dfOutput：

    a   b   c   d   e   f   g   h   i   j
0   NaN NaN NaN 1   NaN NaN NaN NaN NaN NaN
1   NaN NaN NaN 2   NaN NaN NaN NaN NaN NaN
2   NaN NaN NaN 3   NaN NaN NaN NaN NaN NaN

融化了：

    d   h   i
0   5   6   7
1   4   8   6
2   7   4   9

>>dfOutput.update(melted)
>>dfOutput

    a   b   c   d   e   f   g   h   i   j
0   NaN NaN NaN 5   NaN NaN NaN 6   7   NaN
1   NaN NaN NaN 4   NaN NaN NaN 8   6   NaN
2   NaN NaN NaN 7   NaN NaN NaN 4   9   NaN

在DataFrame之間復制現有列

問題描述

1 個解決方案

解決方案1
0 2019-01-13 10:39:16

在DataFrame之間復制現有列

問題描述

1 個解決方案

解決方案1 0 2019-01-13 10:39:16

解決方案1
0 2019-01-13 10:39:16