scikit-learn / python中带有字符的随机森林

Question

我有一个字符列和数字，但我想对字符列进行分类并应用随机森林分类器。 我意识到有OneHotEncoder，但是任何地方都没有示例。 那么如何将字符分类，例如将具有'f'和'm'的性别列转换为（0,1）之类的整数？

Answer 1

使用LabelEncoder ，它接受一个字符串数组并将其转换为整数数组。

例：

from sklearn.preprocessing import LabelEncoder
import pandas as pd

data = pd.DataFrame()

data['age'] = [17,33,47]
data['gender'] = ['m','f','m']

enc = LabelEncoder()

print(data)
enc.fit(data['gender'])
data['gender'] = enc.transform(data['gender'])
print(data)

输出：

   age gender
0    17      m
1    33      f
2    47      m
   age  gender
0    17       1
1    33       0
2    47       1

Answer 2

另外，您可以使用pandas的get_dummies函数，该函数执行标签编码和一种热编码。

在：

import pandas as pd
s = pd.DataFrame(list('abca'))
s = pd.get_dummies(s)
print s

日期：

    a   b   c
0   1   0   0
1   0   1   0
2   0   0   1
3   1   0   0

scikit-learn / python中带有字符的随机森林

问题描述

2 个解决方案

解决方案1
2 已采纳 2016-02-08 14:28:06

解决方案2
1 2016-02-08 15:54:22

scikit-learn / python中带有字符的随机森林

问题描述

2 个解决方案

解决方案1 2 已采纳 2016-02-08 14:28:06

解决方案2 1 2016-02-08 15:54:22

解决方案1
2 已采纳 2016-02-08 14:28:06

解决方案2
1 2016-02-08 15:54:22