Pandas/Python：根据另一列中的值设置一列的值

Question

我需要根据 Pandas dataframe 中另一列的值来设置一列的值。 这是逻辑：

if df['c1'] == 'Value':
    df['c2'] = 10
else:
    df['c2'] = df['c3']

我无法让它做我想做的事，即简单地创建一个具有新值的列（或更改现有列的值：任何一个都适合我）。

如果我尝试运行上面的代码，或者将其编写为 function 并使用 apply 方法，我会得到以下信息：

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

Answer 1

一种方法是使用.loc索引。

例子

在没有示例数据框的情况下，我将在这里补一个：

import numpy as np
import pandas as pd

df = pd.DataFrame({'c1': list('abcdefg')})
df.loc[5, 'c1'] = 'Value'

>>> df
      c1
0      a
1      b
2      c
3      d
4      e
5  Value
6      g

假设您想创建一个新列c2 ，等效于c1除了其中c1是Value ，在这种情况下，您希望将其分配给 10：

首先，您可以创建一个新列c2 ，并将其设置为等效于c1 ，使用以下两行之一（它们基本上做同样的事情）：

df = df.assign(c2 = df['c1'])
# OR:
df['c2'] = df['c1']

然后，使用.loc找到c1等于'Value'所有索引，并在这些索引处在c2中分配所需的值：

df.loc[df['c1'] == 'Value', 'c2'] = 10

你最终会得到这个：

>>> df
      c1  c2
0      a   a
1      b   b
2      c   c
3      d   d
4      e   e
5  Value  10
6      g   g

如果，正如您在问题中所建议的那样，您有时可能只想替换已有列中的值，而不是创建新列，则只需跳过列创建，然后执行以下操作：

df['c1'].loc[df['c1'] == 'Value'] = 10
# or:
df.loc[df['c1'] == 'Value', 'c1'] = 10

给你：

Answer 2

您可以使用np.where()根据指定条件设置值：

#df
   c1  c2  c3
0   4   2   1
1   8   7   9
2   1   5   8
3   3   3   5
4   3   6   8

现在根据您的条件更改['c2']列中的值（或设置）。

df['c2'] = np.where(df.c1 == 8,'X', df.c3)

   c1  c2  c3
0   4   1   1
1   8   X   9
2   1   8   8
3   3   5   5
4   3   8   8

Answer 3

尝试：

df['c2'] = df['c1'].apply(lambda x: 10 if x == 'Value' else x)

Answer 4

请注意反转选择的 tilda。 它使用熊猫方法（即比if / else更快）。

df.loc[(df['c1'] == 'Value'), 'c2'] = 10
df.loc[~(df['c1'] == 'Value'), 'c2'] = df['c3']

Answer 5

您可以使用pandas.DataFrame.mask几乎根据需要添加尽可能多的条件：

data = {'a': [1,2,3,4,5], 'b': [6,8,9,10,11]}

d = pd.DataFrame.from_dict(data, orient='columns')
c = {'c1': (2, 'Value1'), 'c2': (3, 'Value2'), 'c3': (5, d['b'])}

d['new'] = np.nan
for value in c.values():
    d['new'].mask(d['a'] == value[0], value[1], inplace=True)

d['new'] = d['new'].fillna('Else')
d

输出：

    a   b   new
0   1   6   Else
1   2   8   Value1
2   3   9   Value2
3   4   10  Else
4   5   11  11

Answer 6

我建议分两步做：

# set fixed value to 'c2' where the condition is met
df.loc[df['c1'] == 'Value', 'c2'] = 10

# copy value from 'c3' to 'c2' where the condition is NOT met
df.loc[df['c1'] != 'Value', 'c2'] = df[df['c1'] != 'Value', 'c3']

Answer 7

如果您有一个小型/中型数据框，请尝试 df.apply()，

df['c2'] = df.apply(lambda x: 10 if x['c1'] == 'Value' else x['c1'], axis = 1)

否则，如果您有一个大数据框，请遵循上述评论中提到的切片技术。

Answer 8

我相信Series.map()是非常可读和高效的，例如：

df["c2"] = df["c1"].map(lambda x: 10 if x == 'Value' else x)

我喜欢它，因为如果条件逻辑变得更复杂，你可以将它移到一个函数中，然后传入该函数而不是 lambda。

如果您需要基于多列的条件逻辑，您可以像其他人建议的那样使用DataFrame.apply() 。

Answer 9

我有一个很大的数据集，而 .loc[] 花费的时间太长，所以我找到了一种矢量化的方法来做到这一点。 回想一下，您可以将列设置为逻辑运算符，因此可以这样操作：

file['Flag'] = (file['Claim_Amount'] > 0)

这给出了我想要的布尔值，但您可以将其乘以 1 以生成整数。

Pandas/Python：根据另一列中的值设置一列的值

问题描述

9 个解决方案

解决方案1
140 已采纳 2018-03-07 21:15:04

解决方案2
51 2018-03-07 22:28:10

解决方案3
30 2018-03-07 21:06:13

解决方案4
10 2020-09-22 19:04:59

解决方案5
5 2019-11-08 12:57:33

解决方案6
4 2018-03-07 22:29:15

解决方案7
1 2020-07-29 04:33:35

解决方案8
1 2021-07-27 12:55:16

解决方案9
-1 2020-11-04 19:31:37

Pandas/Python：根据另一列中的值设置一列的值

问题描述

9 个解决方案

解决方案1 140 已采纳 2018-03-07 21:15:04

解决方案2 51 2018-03-07 22:28:10

解决方案3 30 2018-03-07 21:06:13

解决方案4 10 2020-09-22 19:04:59

解决方案5 5 2019-11-08 12:57:33

解决方案6 4 2018-03-07 22:29:15

解决方案7 1 2020-07-29 04:33:35

解决方案8 1 2021-07-27 12:55:16

解决方案9 -1 2020-11-04 19:31:37

解决方案1
140 已采纳 2018-03-07 21:15:04

解决方案2
51 2018-03-07 22:28:10

解决方案3
30 2018-03-07 21:06:13

解决方案4
10 2020-09-22 19:04:59

解决方案5
5 2019-11-08 12:57:33

解决方案6
4 2018-03-07 22:29:15

解决方案7
1 2020-07-29 04:33:35

解决方案8
1 2021-07-27 12:55:16

解决方案9
-1 2020-11-04 19:31:37