替换 Pandas DataFrame 中的列值

Question

我正在尝试替换数据帧的一列中的值。 列 ('female') 仅包含值 'female' 和 'male'。

我尝试了以下方法：

w['female']['female']='1'
w['female']['male']='0'

但收到与先前结果完全相同的副本。

理想情况下，我希望获得一些类似于以下循环元素的输出。

if w['female'] =='female':
    w['female'] = '1';
else:
    w['female'] = '0';

我已经查看了 gotchas 文档（ http://pandas.pydata.org/pandas-docs/stable/gotchas.html ），但无法弄清楚为什么什么也没发生。

任何帮助将不胜感激。

Answer 1

如果我理解正确，你想要这样的东西：

w['female'] = w['female'].map({'female': 1, 'male': 0})

（这里我将值转换为数字而不是包含数字的字符串。如果您真的需要，您可以将它们转换为"1"和"0" ，但我不确定您为什么想要那样。）

原因您的代码不工作是因为使用['female']柱（第二'female'在你的w['female']['female']并不意味着“选择行，其中的值是'女性'”。 这意味着选择索引为“女性”的行，其中在您的 DataFrame 中可能没有任何行。

Answer 2

您可以使用 loc 编辑数据帧的子集：

df.loc[<row selection>, <column selection>]

在这种情况下：

w.loc[w.female != 'female', 'female'] = 0
w.loc[w.female == 'female', 'female'] = 1

Answer 3

w.female.replace(to_replace=dict(female=1, male=0), inplace=True)

请参阅pandas.DataFrame.replace() 文档。

Answer 4

轻微变化：

w.female.replace(['male', 'female'], [1, 0], inplace=True)

Answer 5

这也应该有效：

w.female[w.female == 'female'] = 1 
w.female[w.female == 'male']   = 0

Answer 6

您还可以将apply与.get一起使用，即

w['female'] = w['female'].apply({'male':0, 'female':1}.get) :

w = pd.DataFrame({'female':['female','male','female']})
print(w)

数据框w ：

   female
0  female
1    male
2  female

使用apply替换字典中的值：

w['female'] = w['female'].apply({'male':0, 'female':1}.get)
print(w)

结果：

注意：如果数据框中列的所有可能值都在字典中定义，则应使用字典apply ，否则字典中未定义的值将为空。

Answer 7

这是非常紧凑的：

w['female'][w['female'] == 'female']=1
w['female'][w['female'] == 'male']=0

另一个不错的：

w['female'] = w['female'].replace(regex='female', value=1)
w['female'] = w['female'].replace(regex='male', value=0)

Answer 8

或者，对于这些类型的赋值，有内置函数 pd.get_dummies：

w['female'] = pd.get_dummies(w['female'],drop_first = True)

这为您提供了一个包含两列的数据框，一个用于 w['female'] 中出现的每个值，您删除其中的第一列（因为您可以从剩下的列中推断出它）。 新列将自动命名为您替换的字符串。

如果您有具有两个以上可能值的分类变量，这将特别有用。 该函数创建了区分所有情况所需的尽可能多的虚拟变量。 请注意，不要将整个数据框分配给单个列，而是如果 w['female'] 可以是 'male'、'female' 或 'neutral'，请执行以下操作：

w = pd.concat([w, pd.get_dummies(w['female'], drop_first = True)], axis = 1])
w.drop('female', axis = 1, inplace = True)

然后你会留下两个新的列，给你“女性”的虚拟编码，你摆脱了带有字符串的列。

Answer 9

使用`Series.map`和`Series.fillna`

如果您的列包含的字符串多于female和male ，则在这种情况下Series.map将失败，因为它会为其他值返回NaN 。

这就是为什么我们必须用fillna链接它：

.map失败的示例：

df = pd.DataFrame({'female':['male', 'female', 'female', 'male', 'other', 'other']})

   female
0    male
1  female
2  female
3    male
4   other
5   other

df['female'].map({'female': '1', 'male': '0'})

0      0
1      1
2      1
3      0
4    NaN
5    NaN
Name: female, dtype: object

对于正确的方法，我们将map与fillna ，因此我们用原始列中的值填充NaN ：

df['female'].map({'female': '1', 'male': '0'}).fillna(df['female'])

0        0
1        1
2        1
3        0
4    other
5    other
Name: female, dtype: object

Answer 10

还有一个功能pandas叫factorize ，你可以用它来自动执行此类型的工作。 它将标签转换为数字： ['male', 'female', 'male'] -> [0, 1, 0] 。 有关更多信息，请参阅此答案。

Answer 11

w.replace({'female':{'female':1, 'male':0}}, inplace = True)

上面的代码将 'female' 替换为 1，'male' 替换为 0，仅在 'female' 列中

Answer 12

w.female = np.where(w.female=='female', 1, 0)

如果有人正在寻找一个 numpy 解决方案。 这对于根据条件替换值很有用。 if 和 else 条件都是np.where()固有的。 如果列除'male'之外还包含许多唯一值，则使用df.replace()的解决方案可能不可行，所有这些值都应替换为0 。

另一种解决方案是连续使用df.where()和df.mask() 。 这是因为它们都没有实现 else 条件。

w.female.where(w.female=='female', 0, inplace=True) # replace where condition is False
w.female.mask(w.female=='female', 1, inplace=True) # replace where condition is True

Answer 13

我认为在回答中应该指出您在上面建议的所有方法中获得哪种类型的对象：它是 Series 还是 DataFrame。

当你得到w.female. 或w[[2]] （假设 2 是您的列数），您将返回 DataFrame。 因此，在这种情况下，您可以使用 DataFrame 方法，例如.replace 。

当您使用.loc或iloc您会返回 Series，而 Series 没有.replace方法，因此您应该使用apply 、 map等方法。

Answer 14

dic = {'female':1, 'male':0}
w['female'] = w['female'].replace(dic)

.replace 有一个字典作为参数，您可以在其中更改并执行您想要或需要的任何操作。

替换 Pandas DataFrame 中的列值

问题描述

14 个解决方案

解决方案1
306 已采纳 2014-04-26 06:12:02

解决方案2
136 2015-02-16 12:27:17

解决方案3
52 2016-03-26 15:08:46

解决方案4
45 2016-04-30 16:34:40

解决方案5
22 2016-08-19 20:35:18

解决方案6
12 2018-03-11 23:30:22

解决方案7
12 2018-07-24 08:34:23

解决方案8
9 2016-12-01 10:03:59

解决方案9
7 2020-01-27 18:08:54

使用`Series.map`和`Series.fillna`

解决方案10
2 2017-11-18 14:54:30

解决方案11
2 2020-12-24 12:25:34

解决方案12
1 2021-04-08 21:02:57

解决方案13
0 2018-10-15 11:43:56

解决方案14
0 2020-09-27 22:52:01

替换 Pandas DataFrame 中的列值

问题描述

14 个解决方案

解决方案1 306 已采纳 2014-04-26 06:12:02

解决方案2 136 2015-02-16 12:27:17

解决方案3 52 2016-03-26 15:08:46

解决方案4 45 2016-04-30 16:34:40

解决方案5 22 2016-08-19 20:35:18

解决方案6 12 2018-03-11 23:30:22

解决方案7 12 2018-07-24 08:34:23

解决方案8 9 2016-12-01 10:03:59

解决方案9 7 2020-01-27 18:08:54

使用Series.map和Series.fillna

解决方案10 2 2017-11-18 14:54:30

解决方案11 2 2020-12-24 12:25:34

解决方案12 1 2021-04-08 21:02:57

解决方案13 0 2018-10-15 11:43:56

解决方案14 0 2020-09-27 22:52:01

解决方案1
306 已采纳 2014-04-26 06:12:02

解决方案2
136 2015-02-16 12:27:17

解决方案3
52 2016-03-26 15:08:46

解决方案4
45 2016-04-30 16:34:40

解决方案5
22 2016-08-19 20:35:18

解决方案6
12 2018-03-11 23:30:22

解决方案7
12 2018-07-24 08:34:23

解决方案8
9 2016-12-01 10:03:59

解决方案9
7 2020-01-27 18:08:54

使用`Series.map`和`Series.fillna`

解决方案10
2 2017-11-18 14:54:30

解决方案11
2 2020-12-24 12:25:34

解决方案12
1 2021-04-08 21:02:57

解决方案13
0 2018-10-15 11:43:56

解决方案14
0 2020-09-27 22:52:01