繁体 English 中英

如何将分类数据编码为标签以进行训练和测试

[英]How to Encode categorical data into labels for training and testing

原文 2020-07-10 22:24:49 3 1 python/ pandas/ machine-learning/ scikit-learn

训练数据集有 object 列，称为商店和其他。 现在对于机器学习 model 我将列转换为标签以用于训练目的。 使用下面的代码

from sklearn.ensemble import RandomForestRegressor
X = df_all_4.copy()
y = df_all_4.item_price
X = X.drop(['item_price','date'], axis=1)
for c in df_all_4.columns[df_all_4.dtypes == 'object']:
    X[c] = X[c].factorize()[0]
rf = RandomForestRegressor()
rf.fit(X,y)

现在测试数据集也有那些分类列，但是我认为缺少一些列，包括目标列不相关。 但是，如果我再次 label 训练数据集（无序）标签将与训练时使用的标签不同，因此 model 将无法正常工作。 如何解决这个问题并在训练和测试时获得相同的编码

1 个解决方案

这里重要的是您可以使用 Sklearn package 中的 LabelEncoder 或 OneHotEncoder 类。 这使得这项任务非常简单。

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
for c in df_all_4.columns[df_all_4.dtypes == 'object']:
    le = LabelEncoder()
    X[c] = le.fit_transform(X[c])
    test[c] = le.transform(test[c])

就是这样，您已将标签编码为训练和测试数据的数字您还可以使用 OneHotEncoder 对分类数据执行 OneHotEncoding。

如何编码和估算分类数据？

[英]How to encode and impute categorical data?

编码分类数据

[英]Encode categorical data

如何将数据拆分为训练和测试

[英]how to split data into training and testing

如何在不影响 DataFrame 中的数值数据的情况下对分类数据进行编码？

[英]How encode categorical data without affecting numerical data in a DataFrame?

如何对每行都有分类值列表的特征进行编码，以训练机器学习模型？

[英]How to encode a feature which has a list of categorical values in each row for training an machine learning model?

如何使用多个 class 标签对数据进行编码？

[英]How to encode data with multiple class labels?

如何在python中使用sklearn使用分类数据编码20多个列

[英]How to encode 20+ columns with categorical data using sklearn in python

如何在Python的数据框中编码分类变量（系列）？

[英]How to encode a categorical variable (series) in the data frame in Python?

如何将数据拆分为训练和测试数据

[英]How to split the data into training and testing data

如何使用分类的单热标签进行Keras培训？

[英]How can I use categorical one-hot labels for training with Keras?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何编码和估算分类数据？编码分类数据如何将数据拆分为训练和测试如何在不影响 DataFrame 中的数值数据的情况下对分类数据进行编码？如何对每行都有分类值列表的特征进行编码，以训练机器学习模型？如何使用多个 class 标签对数据进行编码？如何在python中使用sklearn使用分类数据编码20多个列如何在Python的数据框中编码分类变量（系列）？如何将数据拆分为训练和测试数据如何使用分类的单热标签进行Keras培训？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM