繁体   English   中英

决策树熵计算目标

[英]Decision tree entropy calculation target

我发现了两种类型的几个例子。

单功能

给定只有两个项目类的数据。 例如仅蓝色和黄色的球。 也就是说,在这种情况下,我们只有一个功能是颜色。 这是一个清晰的示例,显示了适用于熵的“分而治之”规则。 但这对于任何预测或分类问题都是毫无意义的,因为如果我们有一个只有一个特征的对象并且其值是已知的,我们就不需要树来确定“这个球是黄色的”。

多种功能

给定具有多个功能的数据和可预测的功能(以训练数据闻名)。 我们可以基于每个特征的最小平均熵来计算谓词。 更贴近生活,不是吗? 在我没有尝试实现该算法之前,这对我很明显。


现在我的脑海里发生了碰撞。

如果我们相对于已知特征(每个节点一个)计算熵,则只有在未知特征严格依赖于每个已知特征的情况下,使用树进行分类时,我们才能获得有意义的结果。 否则,单个未绑定的已知特征可能会破坏所有预测,从而以错误的方式做出决定。 但是,如果我们相对于要在分类时预测的特征值计算熵,我们将返回第一个无意义的示例。 这样,对于节点使用哪个已知功能没有区别...

还有一个关于树木建造过程的问题。

我是否应该只为已知特征计算熵,而只是相信所有已知特征都与未知数绑定? 或者,也许我应该为未知特征(训练数据已知)TOO计算熵,以确定哪个特征对结果的影响更大?

几年前,我遇到了同样的问题(也许是在类似的编程任务中):我是根据完整的特征集,分支的相关特征还是关卡的相关特征来计算熵吗?

结果是:在决策树中,归结为比较不同分支之间的熵以确定最佳分支。 比较需要相等的基集,即,每当您要比较两个熵值时,它们都必须基于相同的特征集。

对于您的问题,可以使用与要比较的分支集相关的功能,只要您知道使用此解决方案就无法比较不同分支集之间的熵。 否则,请使用整个功能集。

(免责声明:以上解决方案是一个问题的解决方案,它导致了几年前一个小时的思考。希望我一切都正确。)

PS:提防汽车数据集! ;)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM