[英]Classification tree with less leafs than expected
我的树形图仅显示了两个叶子:“ DIFF”和“ REG”,并且完全忽略了响应变量的其他值。 为什么树忽略了其他6个值? 它们只代表我的响应变量中总值的一小部分吗? 下表按响应变量中的值显示了频率计数
35785 ED 1%
38060 NONE 1%
45880 INC 1%
49787 UT 1%
53108 OR 1%
165945 ET 4%
1728019 DIFF 43%
1894532 REG 47%
我怀疑这取决于您所指的不平衡类。 数据偏斜会导致机器学习算法出现问题。 例如,我的客户曾经天真地使用机器学习构建了欺诈检测系统,当测试报告的准确性为97%而根本没有进行调整时,他们的印象深刻。
证明预测规则是“绝不存在欺诈”。 欺诈非常罕见,以至于“规则集”的准确性达到了97%。
在您的情况下,我认为情况类似-尽管没有细节,但我倾向于坐在栅栏上。
有解决此问题的方法 。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.