在 pandas 中为 python 创建虚拟变量

Question

我正在尝试使用 python 中的 pandas 从分类变量创建一系列虚拟变量。我遇到了get_dummies function，但每当我尝试调用它时，我都会收到未定义名称的错误。

任何创建虚拟变量的想法或其他方法将不胜感激。

编辑：由于其他人似乎遇到了这个问题， get_dummies中的 get_dummies function 现在工作得很好。 这意味着以下应该起作用：

import pandas as pd

dummies = pd.get_dummies(df['Category'])

有关详细信息，请参阅http://blog.yhathq.com/posts/logistic-regression-and-python.html 。

Answer 1

当我想到虚拟变量时，我会想到在 OLS 回归的上下文中使用它们，我会做这样的事情：

import numpy as np
import pandas as pd
import statsmodels.api as sm

my_data = np.array([[5, 'a', 1],
                    [3, 'b', 3],
                    [1, 'b', 2],
                    [3, 'a', 1],
                    [4, 'b', 2],
                    [7, 'c', 1],
                    [7, 'c', 1]])                


df = pd.DataFrame(data=my_data, columns=['y', 'dummy', 'x'])
just_dummies = pd.get_dummies(df['dummy'])

step_1 = pd.concat([df, just_dummies], axis=1)      
step_1.drop(['dummy', 'c'], inplace=True, axis=1)
# to run the regression we want to get rid of the strings 'a', 'b', 'c' (obviously)
# and we want to get rid of one dummy variable to avoid the dummy variable trap
# arbitrarily chose "c", coefficients on "a" an "b" would show effect of "a" and "b"
# relative to "c"
step_1 = step_1.applymap(np.int) 

result = sm.OLS(step_1['y'], sm.add_constant(step_1[['x', 'a', 'b']])).fit()
print result.summary()

Answer 2

很难从问题中推断出您在寻找什么，但我最好的猜测如下。

如果我们假设您有一个 DataFrame，其中某些列是“类别”并且包含类别的整数（或其他唯一标识符），那么我们可以执行以下操作。

调用 DataFrame dfrm ，并假设对于每一行， dfrm['Category']是从 1 到 N 的整数集合中的某个值。然后，

for elem in dfrm['Category'].unique():
    dfrm[str(elem)] = dfrm['Category'] == elem

现在，每个类别都有一个新的指标列，根据该行中的数据是否属于该类别，判断为真/假。

如果你想控制类别名称，你可以制作一个字典，例如

cat_names = {1:'Some_Treatment', 2:'Full_Treatment', 3:'Control'}
for elem in dfrm['Category'].unique():
    dfrm[cat_names[elem]] = dfrm['Category'] == elem

导致具有指定名称的列，而不仅仅是类别值的字符串转换。 事实上，对于某些类型， str()可能不会产生任何对您有用的东西。

Answer 3

基于官方文档：

dummies = pd.get_dummies(df['Category']).rename(columns=lambda x: 'Category_' + str(x))
df = pd.concat([df, dummies], axis=1)
df = df.drop(['Category'], inplace=True, axis=1)

FastML 博客中还有一篇不错的文章。

Answer 4

以下代码返回数据框，其中“类别”列被分类列替换：

df_with_dummies = pd.get_dummies(df, prefix='Category_', columns=['Category'])

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html

Answer 5

对于我而言， dmatrices在patsy解决我的问题。 实际上，此函数旨在从具有 R 样式公式字符串的给定 DataFrame 生成因变量和自变量。 但它可以用于从分类特征生成虚拟特征。 您需要做的就是删除由dmatrices自动生成的“拦截”列，而不管您的原始数据帧如何。

import pandas as pd
from patsy import dmatrices

df_original = pd.DataFrame({
   'A': ['red', 'green', 'red', 'green'],
   'B': ['car', 'car', 'truck', 'truck'],
   'C': [10,11,12,13],
   'D': ['alice', 'bob', 'charlie', 'alice']},
   index=[0, 1, 2, 3])

_, df_dummyfied = dmatrices('A ~ A + B + C + D', data=df_original, return_type='dataframe')
df_dummyfied = df_dummyfied.drop('Intercept', axis=1)

df_dummyfied.columns    
Index([u'A[T.red]', u'B[T.truck]', u'D[T.bob]', u'D[T.charlie]', u'C'], dtype='object')

df_dummyfied
   A[T.red]  B[T.truck]  D[T.bob]  D[T.charlie]     C
0       1.0         0.0       0.0           0.0  10.0
1       0.0         0.0       1.0           0.0  11.0
2       1.0         1.0       0.0           1.0  12.0
3       0.0         1.0       0.0           0.0  13.0

Answer 6

您可以创建虚拟变量来处理分类数据

# Creating dummy variables for categorical datatypes
trainDfDummies = pd.get_dummies(trainDf, columns=['Col1', 'Col2', 'Col3', 'Col4'])

这将删除trainDf 中的原始列，并在trainDfDummies数据帧的末尾附加带有虚拟变量的列。

它通过在原始列名的末尾附加值来自动创建列名。

Answer 7

using NumPy and Pandas.如果使用 NumPy 和 Pandas 的则不使用 get_dummies 的一种非常简单的方法。

让，我有一个名为 <"State"> 的列，它有 3 个分类变量 <'New York'>、<'California'> 和 <'Florida'>，我们想分别为其分配 0 和 1。

我们可以使用以下简单的代码来完成。

import numpy as np
import pandas as pd

dataset['NewYork_State'] = np.where(dataset['State']=='New York', 1, 0)
dataset['California_State'] = np.where(dataset['State']=='California', 1, 0)
dataset['Florida_State'] = np.where(dataset['State']=='Florida', 1, 0)

上面我们创建了三个新列来存储值“NewYork_State”、“California_State”、“Florida_State”。

Drop the original column

dataset.drop(columns=['State'],axis=1,inplace=True)

Answer 8

所以我今天（7/25/2013）实际上需要回答这个问题，所以我早些时候写了这个。 我已经用一些玩具示例对其进行了测试，希望您能从中受益

def categorize_dict(x, y=0):
    # x Requires string or numerical input
    # y is a boolean that specifices whether to return category names along with the dict.
    # default is no
    cats = list(set(x))
    n = len(cats)
    m = len(x)
    outs = {}
    for i in cats:
        outs[i] = [0]*m
    for i in range(len(x)):
        outs[x[i]][i] = 1
    if y:
        return outs,cats
    return outs

Answer 9

我使用此代码为每个状态创建了一个虚拟变量。

def create_dummy_column(series, f):
    return series.apply(f)

for el in df.area_title.unique():
    col_name = el.split()[0] + "_dummy"
    f = lambda x: int(x==el)
    df[col_name] = create_dummy_column(df.area_title, f)
df.head()

更一般地说，我只会使用 .apply 并通过定义您的类别的不等式将匿名函数传递给它。

（感谢@prpl.mnky.dshwshr 的 .unique() 见解）

Answer 10

处理分类特征 scikit-learn 期望所有特征都是数字。 那么我们如何在我们的模型中包含一个分类特征呢？

有序类别：将它们转换为合理的数值（例如：小 = 1、中 = 2、大 = 3）无序类别：使用虚拟编码 (0/1) 我们数据集中的分类特征是什么？

有序类别：天气（已经用合理的数值编码）无序类别：季节（需要虚拟编码）、假期（已经虚拟编码）、工作日（已经虚拟编码）对于季节，我们不能简单地将编码保留为 1 = spring , 2 = 夏季，3 = 秋季，4 = 冬季，因为这意味着一个有序的关系。 相反，我们创建了多个虚拟变量：

# An utility function to create dummy variable
`def create_dummies( df, colname ):
col_dummies = pd.get_dummies(df[colname], prefix=colname)
col_dummies.drop(col_dummies.columns[0], axis=1, inplace=True)
df = pd.concat([df, col_dummies], axis=1)
df.drop( colname, axis = 1, inplace = True )
return df`

Answer 11

一种基于具有类别值的列创建虚拟对象的简单而可靠的方法：

for category in list(df['category_column'].unique()):
    df[category] = lis(map(lambda x: 1 if x==category else 0, df['category_column']))

但是在进行一些 OLS 回归时要小心，因为您需要排除其中一个类别，以免陷入虚拟陷阱变量

Answer 12

如果你想用虚拟特征替换变量列表：

# create an empty list to store the dataframes
   dataframes = []

# iterate over the list of categorical features
 for feature in categoricalFeatures:

   # create a dataframe with dummy variables for the current feature
      df_feature = pd.get_dummies(df_raw[feature])

   # add the dataframe to the list
      dataframes.append(df_feature)`

# concatenate the dataframes to create a single dataframe
  df_dummies = pd.concat(dataframes, axis=1)
  df_final = pd.concat([df_raw, df_dummies], axis=1).drop(columns = 
                                                      categoricalFeatures, axis = 1)

在 pandas 中为 python 创建虚拟变量

问题描述

12 个解决方案

解决方案1
32 2014-05-29 03:26:56

解决方案2
22 已采纳 2012-07-21 02:29:57

解决方案3
19 2015-12-24 21:07:15

解决方案4
8 2017-02-14 18:17:59

解决方案5
2 2016-09-23 18:06:15

解决方案6
2 2017-05-21 23:28:03

解决方案7
1 2021-07-23 06:56:25

解决方案8
0 2013-07-25 00:12:39

解决方案9
0 2014-12-20 05:51:26

解决方案10
0 2018-04-05 07:38:17

解决方案11
0 2021-11-06 12:55:11

解决方案12
0 2023-01-04 16:35:47

在 pandas 中为 python 创建虚拟变量

问题描述

12 个解决方案

解决方案1 32 2014-05-29 03:26:56

解决方案2 22 已采纳 2012-07-21 02:29:57

解决方案3 19 2015-12-24 21:07:15

解决方案4 8 2017-02-14 18:17:59

解决方案5 2 2016-09-23 18:06:15

解决方案6 2 2017-05-21 23:28:03

解决方案7 1 2021-07-23 06:56:25

解决方案8 0 2013-07-25 00:12:39

解决方案9 0 2014-12-20 05:51:26

解决方案10 0 2018-04-05 07:38:17

解决方案11 0 2021-11-06 12:55:11

解决方案12 0 2023-01-04 16:35:47

解决方案1
32 2014-05-29 03:26:56

解决方案2
22 已采纳 2012-07-21 02:29:57

解决方案3
19 2015-12-24 21:07:15

解决方案4
8 2017-02-14 18:17:59

解决方案5
2 2016-09-23 18:06:15

解决方案6
2 2017-05-21 23:28:03

解决方案7
1 2021-07-23 06:56:25

解决方案8
0 2013-07-25 00:12:39

解决方案9
0 2014-12-20 05:51:26

解决方案10
0 2018-04-05 07:38:17

解决方案11
0 2021-11-06 12:55:11

解决方案12
0 2023-01-04 16:35:47