pandas 根据使用超过 20 列的条件为多个列分配值

Question

下面是一个 SAS 代码，我正在尝试将其转换为 python。 我可以考虑使用 list comprehension来做到这一点。 或通过使用np.where使用大的嵌套条件。 但我认为有一种更有效的方法可以实现 output。

pandas 数据框有列day1, day2... day30和dw1, dw2... dw30 。 条件是查找任何列（例如day2 to day30中大于 0 的day(x) ，并将'Y'分配给标志列。如果dw(x-1)不为 0，则将'Y'分配给 dwflag。

数据

day1 day2 day3 day4  dw1 dw2 dw3 dw4
1    1    0    1      0  0   0   0
1    0    1    1      1  0   0   0
1    1    1    0      0  0   0   0
1    1    1    0      0  0   1   0
1    1    1    1      0  0   0   0

预期 output

day1 day2 day3 day4  dw1 dw2 dw3 dw4  dflag  dwflag
1    1    0    1      0  0   0   0     Y      N
1    0    1    1      1  0   0   0     Y      Y
1    1    1    0      0  0   0   0     Y      N
1    1    1    0      0  0   1   0     Y      Y
1    1    1    1      0  0   0   0     N      N

SAS代码

   dflag= 'N';
   DO I = 2 TO 30  WHILE(dflag='N');
      IF day(I) = 0 THEN    
        DO;
           dflag='Y';
           IF dw(I-1) NE 0 THEN 
              dwflag = 'Y';
        END;
   END;
   IF dwflag NE 'Y' THEN dwflag='N';

Answer 1

这就是我最终能想到的。

day_cols = [f'day{i}' for i in range(2,31)]

df['days_min_value'] = df[day_cols].min(axis=1)
df['dw_colname'] = df[day_cols].idxmin(axis=1).str.extract('(\d+)').astype(int)-1
df['dw_colname'] = 'dw'+df['dw_colname'].astype(str)

df['dflag'] = np.where(df['days_min_value'] == 0, 'Y', 'N')
df['dwflag'] = np.where( (df['dflag'] == 'Y') & (df[df['dw_colname']] != 0), 'Y', 'N')
df.drop(['days_min_value', 'dw_colname'], inplace=True)

pandas 根据使用超过 20 列的条件为多个列分配值

问题描述

1 个解决方案

解决方案1
0 已采纳 2021-03-22 17:15:36

pandas 根据使用超过 20 列的条件为多个列分配值

问题描述

1 个解决方案

解决方案1 0 已采纳 2021-03-22 17:15:36

解决方案1
0 已采纳 2021-03-22 17:15:36