繁体   English   中英

过采样和欠采样以及平衡的数据

[英]Oversampling and undersampling and balanced data

我正在使用不平衡数据的预测模型,即我的目标变量的分布为10%= 1和90%= 0。

为了提高预测性能,通常建议进行平衡(过采样或欠采样)。

我想知道是否需要平衡整个数据集或仅平衡训练集。 如果要重新平衡整个数据集,如果我使用了过采样,那我就是在重复观察,这意味着来自训练集的观察将重新出现在测试集中,从而人为地提高了预测性能,对吗?

对于欠采样,我认为这无关紧要。

有什么想法吗?

您应该平衡训练数据集,但是不必平衡测试或验证集。 如果您的系统训练有素,那么它将在测试/验证时间内正确处理不平衡的数据集。 如果没有,那就没有经过良好的培训。 此外,您还需要评估实际性能,为此您需要对真实数据进行测试。

如果决定过采样,请确保添加一点随机噪声以减少重复的影响。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM