![](/img/trans.png)
[英]How to fix “'.' in formula and no 'data' argument” when using randomForest function?
[英]What should be the type of categorical variable when using the function randomForest?
这只是一个一般理论问题,我在大学数据科学模拟面试中被问到这个问题,我试图寻找这个答案,但无法在其他地方得到它。 希望有人能帮助我。 另外我对随机森林的掌握不多
机器学习算法需要以数字形式对特征进行编码。 您可以对特征的每个级别进行一个热编码(0 或 1)以指示其存在,也可以对 label 进行编码,以便特征中的每个级别都有一个数值(1,2,3)。 通常使用 one-hot 编码,因为 label 编码可能会显示该功能的顺序。 one-hot 编码的一个风险是,如果你有太多的特征,特征空间会扩展太多,导致高维特征集,如果没有足够的数据,这可能是一个挑战。 因此,一些方法只对特征的最常见级别进行特征编码。
资料来源:AceAI 面试准备、Kaggle、R 应用程序统计学习简介
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.