繁体   English   中英

使用 function randomForest 时,分类变量的类型应该是什么?

[英]What should be the type of categorical variable when using the function randomForest?

这只是一个一般理论问题,我在大学数据科学模拟面试中被问到这个问题,我试图寻找这个答案,但无法在其他地方得到它。 希望有人能帮助我。 另外我对随机森林的掌握不多

一般理论而言,随机森林可以处理数字数据和分类数据。 function randomForest此处的文档)支持编码为因子的分类数据,因此这将是您的类型。

机器学习算法需要以数字形式对特征进行编码。 您可以对特征的每个级别进行一个热编码(0 或 1)以指示其存在,也可以对 label 进行编码,以便特征中的每个级别都有一个数值(1,2,3)。 通常使用 one-hot 编码,因为 label 编码可能会显示该功能的顺序。 one-hot 编码的一个风险是,如果你有太多的特征,特征空间会扩展太多,导致高维特征集,如果没有足够的数据,这可能是一个挑战。 因此,一些方法只对特征的最常见级别进行特征编码。

资料来源:AceAI 面试准备、Kaggle、R 应用程序统计学习简介

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM