如何只为列中的特定值生成虚拟变量？

Question

我有一个熊猫数据框列，其中包含100个国家/地区的国家/地区代码。 我想使用它们进行回归，但是我只想为数据集中的特定国家/地区创建虚拟变量。

我认为这可以工作：

dummies = pd.get_dummies(df.CountryCode, prefix='cc_')
df_and_dummies = pd.concat([df,dummies[dummies['cc_US', 'cc_GB']]], axis=1)
df_and_dummies

但这给了我错误：

KeyError: ('cc_US', 'cc_GB')

我的数据框目前看起来像：

dframe = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],
                'CountryCode': ['UK', 'US', 'RU']})
dframe

但我希望它看起来像这样：

有没有一种简单的方法来指定要包含在get_dummies方法中的值，还是有另一种方法来标识特定的虚拟变量？

Answer 1

假人看起来像这样：

In [25]: dummies
Out[25]:
   cc_RU  cc_UK  cc_US
0      0      1      0
1      0      0      1
2      1      0      0

要选择其中的某些列，可以在[] getitem中提供列名称的列表：

In [27]: dummies[['cc_US', 'cc_UK']]
Out[27]:
   cc_US  cc_UK
0      0      1
1      1      0
2      0      0

因此，您实际上错过了[一个括号。
完整的代码变为：

In [29]: pd.concat([df, dummies[['cc_US', 'cc_UK']]], axis=1)
Out[29]:
   A  B CountryCode  cc_US  cc_UK
0  a  b          UK      0      1
1  b  a          US      1      0
2  a  c          RU      0      0

如何只为列中的特定值生成虚拟变量？

问题描述

1 个解决方案

解决方案1
1 已采纳 2015-10-01 22:23:36

如何只为列中的特定值生成虚拟变量？

问题描述

1 个解决方案

解决方案1 1 已采纳 2015-10-01 22:23:36

解决方案1
1 已采纳 2015-10-01 22:23:36