[英]pandas assign value to more than one columns based on a condition using more than 20 columns
下面是一个 SAS 代码,我正在尝试将其转换为 python。 我可以考虑使用 list comprehension
来做到这一点。 或通过使用np.where
使用大的嵌套条件。 但我认为有一种更有效的方法可以实现 output。
pandas 数据框有列day1, day2... day30
和dw1, dw2... dw30
。 条件是查找任何列(例如day2 to day30
中大于 0 的day(x)
,并将'Y'
分配给标志列。如果dw(x-1)
不为 0,则将'Y'
分配给 dwflag。
数据
day1 day2 day3 day4 dw1 dw2 dw3 dw4
1 1 0 1 0 0 0 0
1 0 1 1 1 0 0 0
1 1 1 0 0 0 0 0
1 1 1 0 0 0 1 0
1 1 1 1 0 0 0 0
预期 output
day1 day2 day3 day4 dw1 dw2 dw3 dw4 dflag dwflag
1 1 0 1 0 0 0 0 Y N
1 0 1 1 1 0 0 0 Y Y
1 1 1 0 0 0 0 0 Y N
1 1 1 0 0 0 1 0 Y Y
1 1 1 1 0 0 0 0 N N
SAS代码
dflag= 'N';
DO I = 2 TO 30 WHILE(dflag='N');
IF day(I) = 0 THEN
DO;
dflag='Y';
IF dw(I-1) NE 0 THEN
dwflag = 'Y';
END;
END;
IF dwflag NE 'Y' THEN dwflag='N';
这就是我最终能想到的。
day_cols = [f'day{i}' for i in range(2,31)]
df['days_min_value'] = df[day_cols].min(axis=1)
df['dw_colname'] = df[day_cols].idxmin(axis=1).str.extract('(\d+)').astype(int)-1
df['dw_colname'] = 'dw'+df['dw_colname'].astype(str)
df['dflag'] = np.where(df['days_min_value'] == 0, 'Y', 'N')
df['dwflag'] = np.where( (df['dflag'] == 'Y') & (df[df['dw_colname']] != 0), 'Y', 'N')
df.drop(['days_min_value', 'dw_colname'], inplace=True)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.