熊猫：如何有条件地分配多个列？

Question

我想仅用某些列替换负值为nan 。 最简单的方法可能是：

for col in ['a', 'b', 'c']:
    df.loc[df[col ] < 0, col] = np.nan

df可能有很多列，我只想对特定列执行此操作。

有没有办法在一行中做到这一点？ 看起来这应该很容易，但我还没弄清楚。

Answer 1

我认为你不会比这简单得多：

>>> df = pd.DataFrame({'a': np.arange(-5, 2), 'b': np.arange(-5, 2), 'c': np.arange(-5, 2), 'd': np.arange(-5, 2), 'e': np.arange(-5, 2)})
>>> df
   a  b  c  d  e
0 -5 -5 -5 -5 -5
1 -4 -4 -4 -4 -4
2 -3 -3 -3 -3 -3
3 -2 -2 -2 -2 -2
4 -1 -1 -1 -1 -1
5  0  0  0  0  0
6  1  1  1  1  1
>>> df[df[cols] < 0] = np.nan
>>> df
     a    b    c  d  e
0  NaN  NaN  NaN -5 -5
1  NaN  NaN  NaN -4 -4
2  NaN  NaN  NaN -3 -3
3  NaN  NaN  NaN -2 -2
4  NaN  NaN  NaN -1 -1
5  0.0  0.0  0.0  0  0
6  1.0  1.0  1.0  1  1

Answer 2

使用loc和where

cols = ['a', 'b', 'c']
df.loc[:, cols] = df[cols].where(df[cols].where.ge(0), np.nan)

示范

df = pd.DataFrame(np.random.randn(10, 5), columns=list('abcde'))
df

cols = list('abc')
df.loc[:, cols] = df[cols].where(df[cols].ge(0), np.nan)
df

你可以用numpy加快速度

df[cols] = np.where(df[cols] < 0, np.nan, df[cols])

做同样的事情。

定时

def gen_df(n):
    return pd.DataFrame(np.random.randn(n, 5), columns=list('abcde'))

因为赋值是其中的一个重要部分，所以我从头开始创建每个循环的df 。 我还添加了df创建的时间。

对于n = 10000

对于n = 100000

Answer 3

这是一种方式：

df[df.columns.isin(['a', 'b', 'c']) & (df < 0)] = np.nan

Answer 4

您可以使用np.where来实现此目的：

In [47]:
df = pd.DataFrame(np.random.randn(5,5), columns=list('abcde'))
df

Out[47]:
          a         b         c         d         e
0  0.616829 -0.933365 -0.735308  0.665297 -1.333547
1  0.069158  2.266290 -0.068686 -0.787980 -0.082090
2  1.203311  1.661110 -1.227530 -1.625526  0.045932
3 -0.247134 -1.134400  0.355436  0.787232 -0.474243
4  0.131774  0.349103 -0.632660 -1.549563  1.196455

In [48]:    
df[['a','b','c']] = np.where(df[['a','b','c']] < 0, np.NaN, df[['a','b','c']])
df

Out[48]:
          a         b         c         d         e
0  0.616829       NaN       NaN  0.665297 -1.333547
1  0.069158  2.266290       NaN -0.787980 -0.082090
2  1.203311  1.661110       NaN -1.625526  0.045932
3       NaN       NaN  0.355436  0.787232 -0.474243
4  0.131774  0.349103       NaN -1.549563  1.196455

Answer 5

当然，只需从面具中选择所需的列：

(df < 0)[['a', 'b', 'c']]

您可以在df[(df < 0)[['a', 'b', 'c']]] = np.nan使用此掩码。

Answer 6

如果它必须是单行：

df[['a', 'b', 'c']] = df[['a', 'b', 'c']].apply(lambda c: [x>0 and x or np.nan for x in c])

熊猫：如何有条件地分配多个列？

问题描述

6 个解决方案

解决方案1
10 已采纳 2016-10-17 15:55:19

解决方案2
7 2016-10-17 15:49:49

解决方案3
5 2016-10-17 15:50:03

解决方案4
4 2016-10-17 15:51:51

解决方案5
3 2016-10-17 15:55:24

解决方案6
1 2016-10-17 15:53:08

熊猫：如何有条件地分配多个列？

问题描述

6 个解决方案

解决方案1 10 已采纳 2016-10-17 15:55:19

解决方案2 7 2016-10-17 15:49:49

解决方案3 5 2016-10-17 15:50:03

解决方案4 4 2016-10-17 15:51:51

解决方案5 3 2016-10-17 15:55:24

解决方案6 1 2016-10-17 15:53:08

解决方案1
10 已采纳 2016-10-17 15:55:19

解决方案2
7 2016-10-17 15:49:49

解决方案3
5 2016-10-17 15:50:03

解决方案4
4 2016-10-17 15:51:51

解决方案5
3 2016-10-17 15:55:24

解决方案6
1 2016-10-17 15:53:08