[英]Pandas: create a column in one dataframe based on matching values in multiple columns of a different dataframe
[英]How to add one column to pandas dataframe based on values in different columns?
我有一个 pandas 数据框,如下所示:
a b c d
0.7 0.1 0.2 0.3
0.5 0.2 0.2 0.2
我正在编写一些像下面这样的嵌套循环来添加基于这 4 列的列结果。
def class_decider(df):
for i in df['a']:
if i > 0.6:
a = "class A"
elif:
for j in df['b']:
if j > 0.2:
a = "class B"
elif:
for k in df['c']:
if j > 0.15:
a = "class C"
elif:
for l in df['d']:
if l > 0.10:
a = "class D"
else:
a = "null"
return a
任何人都可以帮助优化代码。
预期 Output:
a b c d result
0.7 0.1 0.2 0.3 class A
0.5 0.2 0.2 0.2 class C
IIUC,您可以将列a
、 b
、 c
和d
与 0.6、0.2、0.15、0.10 进行比较0.6, 0.2, 0.15, 0.10
以创建 boolean 掩码,然后在此掩码上沿axis=1
使用idxmax
以获取第一个True
值掩码的名称发生在掩码中。
c = ['a', 'b', 'c', 'd']
m = df[c].gt([0.6, 0.2, 0.15, 0.10])
df['Result'] = m.idxmax(1).radd('Class ').mask(~m.any(1), 'Null')
a b c d Result
0 0.7 0.1 0.2 0.3 Class a
1 0.5 0.2 0.2 0.2 Class c
如果您正在寻找可解释、灵活但不一定性能最佳的解决方案,这里有两种方法:
方法 1 :使用.loc
和列比较
df = pd.DataFrame({'a':[0.7, 0.5], 'b':[0.1, 0.2], 'c':[0.2, 0.2], 'd':[0.3, 0.2]})
df['result'] = None
df.loc[df['d'] > 0.1, 'result'] = 'class_d'
df.loc[df['c'] > 0.15, 'result'] = 'class_c'
df.loc[df['b'] > 0.2, 'result'] = 'class_b'
df.loc[df['a'] > 0.6, 'result'] = 'class_a'
方法 2使用df.iterrows()
df = pd.DataFrame({'a':[0.7, 0.5], 'b':[0.1, 0.2], 'c':[0.2, 0.2], 'd':[0.3, 0.2]})
df['result'] = None
for idx, row in df.iterrows():
if row['a'] > 0.6:
df.loc[idx, 'result'] = 'class_a'
elif row['b'] > 0.2:
df.loc[idx, 'result'] = 'class_b'
elif row['c'] > 0.15:
df.loc[idx, 'result'] = 'class_c'
elif row['d'] > 0.1:
df.loc[idx, 'result'] = 'class_d'
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.