繁体   English   中英

分类树,叶子少于预期

[英]Classification tree with less leafs than expected

我的树形图仅显示了两个叶子:“ DIFF”和“ REG”,并且完全忽略了响应变量的其他值。 为什么树忽略了其他6个值? 它们只代表我的响应变量中总值的一小部分吗? 下表按响应变量中的值显示了频率计数

35785   ED      1%
38060   NONE    1%
45880   INC     1%
49787   UT      1%
53108   OR      1%
165945  ET      4%
1728019 DIFF    43%
1894532 REG     47%

我怀疑这取决于您所指的不平衡类。 数据偏斜会导致机器学习算法出现问题。 例如,我的客户曾经天真地使用机器学习构建了欺诈检测系统,当测试报告的准确性为97%而根本没有进行调整时,他们的印象深刻。

证明预测规则是“绝不存在欺诈”。 欺诈非常罕见,以至于“规则集”的准确性达到了97%。

在您的情况下,我认为情况类似-尽管没有细节,但我倾向于坐在栅栏上。

解决此问题的方法

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM