machine-learning - 决策树熵计算目标

单功能

给定只有两个项目类的数据。 例如仅蓝色和黄色的球。 也就是说，在这种情况下，我们只有一个功能是颜色。 这是一个清晰的示例，显示了适用于熵的“分而治之”规则。 但这对于任何预测或分类问题都是毫无意义的，因为如果我们有一个只有一个特征的对象并且其值是已知的，我们就不需要树来确定“这个球是黄色的”。

多种功能

给定具有多个功能的数据和可预测的功能（以训练数据闻名）。 我们可以基于每个特征的最小平均熵来计算谓词。 更贴近生活，不是吗？ 在我没有尝试实现该算法之前，这对我很明显。

现在我的脑海里发生了碰撞。

如果我们相对于已知特征（每个节点一个）计算熵，则只有在未知特征严格依赖于每个已知特征的情况下，使用树进行分类时，我们才能获得有意义的结果。 否则，单个未绑定的已知特征可能会破坏所有预测，从而以错误的方式做出决定。 但是，如果我们相对于要在分类时预测的特征值计算熵，我们将返回第一个无意义的示例。 这样，对于节点使用哪个已知功能没有区别...

还有一个关于树木建造过程的问题。

我是否应该只为已知特征计算熵，而只是相信所有已知特征都与未知数绑定？ 或者，也许我应该为未知特征（训练数据已知）TOO计算熵，以确定哪个特征对结果的影响更大？