繁体   English   中英

分类数据的随机森林分类器?

[英]Random Forest Classifier for Categorical Data?

我最近一直在使用随机森林回归,我得到了很棒的结果。 我在网上读到你可以使用随机森林分类器来处理分类数据,我在谷歌上搜索了一些这样的例子,但我找不到任何非常有用的东西。 我看到了几篇关于将分类数据一次性编码为数值数据的文章,但据我所知,这对于随机森林方法来说并不是一个好主意。 如果您真的可以使用随机森林技术根据分类数据预测结果,请分享一些资源(链接、代码等)。 我很想测试这个概念。 我似乎找不到关于这个主题的好教程。 我在 Python 环境中工作。 谢谢。

对于回归和二元分类,决策树(以及 RF)实现应该能够处理分类数据。 这个想法在 CART (1984) 的原始论文中提出,并表示可以通过考虑按照平均响应排序的类别来找到最佳分割,然后这样对待它们。 您可以在此处找到问题的说明
对于多类分类,问题有点复杂。

无论如何,这种方法可能会导致一些过度拟合,因为您实际上正在使用一些目标编码(对于 RF 应该不是太大的问题,对于增强型机器可能更多)。 但是,许多实现不允许对分类变量进行自动拆分,因此最好了解在树中进行编码的最佳方法。 我推荐这篇中等文章和这篇博文。

最后,一些实现以不同方式但有效地处理分类数据。 我建议查看H2O 的实现,它使用一种很好的分箱方法进行快速拆分。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM