[英]Create a new column in a Pandas DataFrame from exisiting column names
[英]Create new dataframe in pandas with dynamic names also add new column
我有一个数据框 df
df = pd.DataFrame({'A':['-a',1,'a'],
'B':['a',np.nan,'c'],
'ID':[1,2,2],
't':[pd.tslib.Timestamp.now(),pd.tslib.Timestamp.now(),
np.nan]})
添加了一个新列
df['YearMonth'] = df['t'].map(lambda x: 100*x.year + x.month)
现在我想编写一个函数或宏来进行日期比较,创建一个新的数据框并向数据框添加一个新列。
我试过这样,但似乎我错了:
def test(df,ym):
df_new=df
if(ym <= df['YearMonth']):
df_new+"_"+ym=df_new
return df_new+"_"+ym
df_new+"_"+ym['new_col']=ym
现在,当我调用测试函数时,我希望创建一个名为df_new_201612
的新数据框,并且这个新数据框应该还有一个名为new_col
的列,所有行的值为ym
。
test(df,201612)
新数据帧的输出为:
df_new_201612
A B ID t YearMonth new_col
-a a 1 2016-12-05 12:37:56.374620 201612 201612
1 NaN 2 2016-12-05 12:37:56.374644 201208 201612
a c 2 nat nan 201612
使用动态名称创建变量通常是一种不好的做法。
我认为您的问题的最佳解决方案是将您的数据帧存储到字典中并动态生成访问每个数据帧的键名。
import copy
dict_of_df = {}
for ym in [201511, 201612, 201710]:
key_name = 'df_new_'+str(ym)
dict_of_df[key_name] = copy.deepcopy(df)
to_change = df['YearMonth']< ym
dict_of_df[key_name].loc[to_change, 'new_col'] = ym
dict_of_df.keys()
Out[36]: ['df_new_201710', 'df_new_201612', 'df_new_201511']
dict_of_df
Out[37]:
{'df_new_201511': A B ID t YearMonth new_col
0 -a a 1 2016-12-05 07:53:35.943 201612 201612
1 1 NaN 2 2016-12-05 07:53:35.943 201612 201612
2 a c 2 2016-12-05 07:53:35.943 201612 201612,
'df_new_201612': A B ID t YearMonth new_col
0 -a a 1 2016-12-05 07:53:35.943 201612 201612
1 1 NaN 2 2016-12-05 07:53:35.943 201612 201612
2 a c 2 2016-12-05 07:53:35.943 201612 201612,
'df_new_201710': A B ID t YearMonth new_col
0 -a a 1 2016-12-05 07:53:35.943 201612 201710
1 1 NaN 2 2016-12-05 07:53:35.943 201612 201710
2 a c 2 2016-12-05 07:53:35.943 201612 201710}
# Extract a single dataframe
df_2015 = dict_of_df['df_new_201511']
使用exec
方法有一种更简单的方法来完成此操作。 可以执行以下步骤以在运行时创建数据框。
1.使用一些随机值创建源数据框。
import numpy as np
import pandas as pd
df = pd.DataFrame({'A':['-a',1,'a'],
'B':['a',np.nan,'c'],
'ID':[1,2,2]})
2.分配一个包含新数据框名称的变量。 您甚至可以将此值作为参数发送或动态循环它。
new_df_name = 'df_201612'
3.使用exec
方法动态创建数据帧,将数据从源数据帧动态复制到新数据帧,并在下一行为新列赋值。
exec(f'{new_df_name} = df.copy()')
exec(f'{new_df_name}["new_col"] = 123')
4.现在数据帧df_201612
将在内存中可用,您可以执行print
语句和eval
来验证这一点。
print(eval(new_df_name))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.