繁体   English   中英

是否认为过拟合具有完善属性的决策树?

[英]Is it considered overfit a decision tree with a perfect attribute?

我有一个6维训练数据集,其中有一个完美的数值属性,可以通过这种方式将所有训练示例分开:如果TIME <200,则示例属于class1;如果TIME> = 200,则示例属于class2。 J48创建一个只有1级且此属性为唯一节点的树。

但是,测试数据集未遵循该假设,并且所有示例均未正确分类。 我在弄清楚这种情况是否被认为过拟合时遇到麻烦。 我不是说数据集不是那么简单,但是据我了解过拟合的定义,它暗示了对训练数据的高度拟合,这就是我所拥有的。 有什么帮助吗?

但是,测试数据集未遵循该假设,并且所有示例均未正确分类。 我在弄清楚这种情况是否被认为过拟合时遇到麻烦。 我不是说数据集不是那么简单,但是据我了解过拟合的定义,它暗示了对训练数据的高度拟合,这就是我所拥有的。 有什么帮助吗?

通常,良好的培训成绩和较差的测试意味着过度拟合。 但这假设数据的IID,并且您显然违反了这一假设-您的训练数据与测试数据完全不同(训练数据有明确的规则,对于测试数据没有意义)。 换句话说-您的训练/测试拆分不正确,或者您的整个问题没有遵循在何处使用统计毫升的基本假设。 当然,在您的情况下,我们通常会在没有有效假设的情况下拟合模型-最自然的方法是删除一个最不符合假设的要素-用于构造节点的要素。 这种“专家决定”应在构建任何分类器之前完成,您必须考虑“与训练场景相比,测试场景有何不同”,并删除显示这种差异的内容-否则数据中存在严重的偏差收集,因此统计方法将失败。

是的,这太过适合了。 创建训练集的第一条规则是使其看起来尽可能地类似于其他任何训练集。 您的训练方式明显不同于其他训练方式。 它的答案嵌入其中,而测试集却没有。 任何学习算法都可能会找到与答案的相关性并使用它,就像J48算法一样,会将其他变量视为噪声。 等同于Clever Hans的软件。

您可以通过删除变量或通过训练从整个可用集合中随机抽取的集合来克服此问题。 但是,由于您知道有一个嵌入了主要提示的子集,因此应删除该提示。

你真幸运 有时,这些提示可能非常微妙,直到您开始将模型应用于将来的数据时,您才会发现它们。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM