根据另一个数据帧将列添加到 Pandas 数据帧并将值设置为零

Question

我有两个 Pandas 数据框，如下所示：

import pandas as pd
main_df = pd.DataFrame({
    'day1': [1, 2, 3, 4],
    'day2': [2, 1, 3, 4],
    'day3': [3, 1, 2, 5],
    'day4': [2, 1, 3, 5],
    'day5': [4, 1, 2, 3],
    'day6': [5, 3, 4, 2]}, index=['a', 'b', 'c', 'd'])

df = pd.DataFrame({
    'day1': [0, 1, 0],
    'day3': [0, 0, 1]
})

我想将 main_df 中的列添加到 df 并将它们的值设置为 0。我的预期输出是：

df
    day1  day2  day3  day4  day5 day6
0    0      0    0      0    0     0
1    1      0    0      0    0     0
2    0      0    1      0    0     0

我可以通过以下方式循环执行此操作：

cols_to_add = main_df.columns[~main_df.columns.isin(df.columns)]
for c in cols_to_add:
    df[c] = 0

有没有办法在不循环的情况下做到这一点？ 请注意，两个数据帧的索引是不同的。

Answer 1

您可以尝试使用dict并assign ：

cols_to_add = main_df.columns[~main_df.columns.isin(df.columns)]
d = dict.fromkeys(cols_to_add, 0)
df.assign(**d)

或者

pd.concat([df, pd.DataFrame(columns = cols_to_add)]).fillna(0)

   day1     day3    day2    day4    day5    day6
0   0       0       0       0       0       0
1   1       0       0       0       0       0
2   0       1       0       0       0       0

Answer 2

请使用df.reindex(columns=[x])并join结局df

本例中的x是main_df和df之间的列差

df.join(df.reindex(columns=list(main_df.columns.difference(df.columns)))).fillna(0)

  day1     day3    day2    day4    day5    day6
0   0       0       0       0       0       0
1   1       0       0       0       0       0
2   0       1       0       0       0       0

Answer 3

你可以做

df[cols_to_add] = pd.DataFrame(columns=cols_to_add, index=df.index).fillna(0)

DataFrame 切片接受兼容的 DataFrame 作为值

Answer 4

你可以试试这个：

import pandas as pd
import numpy as np

# 1 - List comprehension
col_to_add = [col for col in main_df.columns if col not in df.columns]
# 2 - Create values to add using pd.DataFrame constructor and numpy
zero_vals_df = pd.DataFrame(data=np.zeros((3,len(col_to_add)),dtype=int),columns=col_to_add,index=df.index)
# 3 - Join DataFrames to obtain the desired result
df = pd.concat([df,zero_vals_df],axis=1)

在我的机器上，使用%%timeit magic cell 我得到了以下性能：

每个循环 429 µs ± 3.37 µs（平均值 ± 标准偏差，7 次运行，每次 1000 次循环）

请注意，此方法需要您添加numpy作为依赖项。

根据另一个数据帧将列添加到 Pandas 数据帧并将值设置为零

问题描述

4 个解决方案

解决方案1
1 已采纳 2020-08-25 20:28:04

解决方案2
1 2020-08-25 20:32:12

解决方案3
1 2020-08-25 20:37:39

解决方案4
0 2020-08-25 21:04:44

根据另一个数据帧将列添加到 Pandas 数据帧并将值设置为零

问题描述

4 个解决方案

解决方案1 1 已采纳 2020-08-25 20:28:04

解决方案2 1 2020-08-25 20:32:12

解决方案3 1 2020-08-25 20:37:39

解决方案4 0 2020-08-25 21:04:44

解决方案1
1 已采纳 2020-08-25 20:28:04

解决方案2
1 2020-08-25 20:32:12

解决方案3
1 2020-08-25 20:37:39

解决方案4
0 2020-08-25 21:04:44