繁体 English 中英

是否认为过拟合具有完善属性的决策树？

[英]Is it considered overfit a decision tree with a perfect attribute?

原文 2016-05-02 21:27:09 3 2 machine-learning/ artificial-intelligence/ classification/ decision-tree/ supervised-learning

我有一个6维训练数据集，其中有一个完美的数值属性，可以通过这种方式将所有训练示例分开：如果TIME <200，则示例属于class1；如果TIME> = 200，则示例属于class2。 J48创建一个只有1级且此属性为唯一节点的树。

但是，测试数据集未遵循该假设，并且所有示例均未正确分类。 我在弄清楚这种情况是否被认为过拟合时遇到麻烦。 我不是说数据集不是那么简单，但是据我了解过拟合的定义，它暗示了对训练数据的高度拟合，这就是我所拥有的。 有什么帮助吗？

2 个解决方案

但是，测试数据集未遵循该假设，并且所有示例均未正确分类。 我在弄清楚这种情况是否被认为过拟合时遇到麻烦。 我不是说数据集不是那么简单，但是据我了解过拟合的定义，它暗示了对训练数据的高度拟合，这就是我所拥有的。 有什么帮助吗？

通常，良好的培训成绩和较差的测试意味着过度拟合。 但这假设数据的IID，并且您显然违反了这一假设-您的训练数据与测试数据完全不同（训练数据有明确的规则，对于测试数据没有意义）。 换句话说-您的训练/测试拆分不正确，或者您的整个问题没有遵循在何处使用统计毫升的基本假设。 当然，在您的情况下，我们通常会在没有有效假设的情况下拟合模型-最自然的方法是删除一个最不符合假设的要素-用于构造节点的要素。 这种“专家决定”应在构建任何分类器之前完成，您必须考虑“与训练场景相比，测试场景有何不同”，并删除显示这种差异的内容-否则数据中存在严重的偏差收集，因此统计方法将失败。

是的，这太过适合了。 创建训练集的第一条规则是使其看起来尽可能地类似于其他任何训练集。 您的训练方式明显不同于其他训练方式。 它的答案嵌入其中，而测试集却没有。 任何学习算法都可能会找到与答案的相关性并使用它，就像J48算法一样，会将其他变量视为噪声。 等同于Clever Hans的软件。

您可以通过删除变量或通过训练从整个可用集合中随机抽取的集合来克服此问题。 但是，由于您知道有一个嵌入了主要提示的子集，因此应删除该提示。

你真幸运 有时，这些提示可能非常微妙，直到您开始将模型应用于将来的数据时，您才会发现它们。

完善的决策树分类

[英]Perfect decision tree classification

为什么决策树在不平衡数据上能完美工作？

[英]Why decision tree works perfect on imbalanced data?

决策树总能带来完美的准确性

[英]Decision tree always returns perfect accuarcy

为什么使用随机森林来确保我的决策树 model 不会过拟合？

[英]Why using random forest to make sure my decision tree model doesn't overfit?

找到决策树的最佳属性

[英]finding best attribute for decision tree

具有高基数属性的决策树

[英]Decision tree with high cardinality attribute

决策树如何计算分裂属性？

[英]How decision tree calculate the splitting attribute?

创建决策树和拆分属性的问题？

[英]Problems with creating a decision tree and splitting on an attribute?

如何故意过度装配Weka树分类器？

[英]How to purposely overfit Weka tree classifiers?

如果为决策树选择了不好的属性，那么这里有一个一致的假设吗？

[英]If a not good attribute is selected for decision tree, there is a consistent hypothesis here?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 完善的决策树分类为什么决策树在不平衡数据上能完美工作？决策树总能带来完美的准确性为什么使用随机森林来确保我的决策树 model 不会过拟合？找到决策树的最佳属性具有高基数属性的决策树决策树如何计算分裂属性？创建决策树和拆分属性的问题？如何故意过度装配Weka树分类器？如果为决策树选择了不好的属性，那么这里有一个一致的假设吗？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM