繁体 English 中英

不平衡数据的特征工程

[英]Feature Engineering on imbalanced data

原文 2020-01-03 18:01:15 9 2 machine-learning/ feature-engineering/ imbalanced-data

我正在训练一个关于分类问题的机器学习模型。 我的数据集是10000 个观察值，包含37 个分类类别。 但是数据不平衡，我有一些类有100 个观测值，而其他一些类有3000和4000 个观测值。

在搜索了如何对此类数据进行一些特征工程以提高算法的性能之后。 我找到了2个解决方案：

上采样意味着获得更多关于少数类的数据
下采样意味着删除关于多数类的数据

根据第一个解决方案：我有很多班级有一些观察，所以它需要更多的数据和很长的时间。 所以这对我来说会很困难！
通过应用第二个：我认为所有类都会有一些观察结果，并且数据将非常小，因此算法很难概括。

那么我可以尝试解决这个问题的另一种解决方案吗？

2 个解决方案

您可以更改损失函数中的权重，以便在优化时较小的类具有更大的重要性。 例如，在 keras 中，您可以使用weighted_cross_entropy_with_logits 。

您可以将两者结合使用。

如果您对所有少数类进行上采样以匹配多数类，那么您似乎担心会得到过大的数据集。 如果是这种情况，您可以将多数类下采样到 25% 或 50%，同时上采样少数类。 上采样的一种替代方法是使用 SMOTE 等算法为少数类合成样本。

如果您正在批量训练神经网络，最好确保训练集被正确打乱，并且您在小批量中拥有偶数/多数样本的均匀分布。

功能工程，处理丢失的数据

[英]Feature engineering, handling missing data

数据较少，稀疏和不平衡时的功能选择

[英]Feature selection when data is less, sparse and imbalanced

如何进行实时数据特征工程？

[英]How to do feature engineering of real time data?

如何在 weka 中做这些：交叉验证+不平衡数据+特征选择

[英]How to do these in weka: cross validation + imbalanced data + feature selection

以分类列为条件的特征工程薪资数据

[英]Feature Engineering Salary Data using Categorical Column as a condition

数据解析和特征工程管道的设计模式

[英]Design pattern for a data parsing&feature engineering pipeline

对特征工程的建议

[英]Suggestions for feature engineering

PHP SVM-功能工程

[英]PHP SVM - Feature engineering

处理不平衡的分类数据？

[英]dealing with imbalanced classification data?

数据不均衡的过度训练

[英]Overtraining with imbalanced data

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 功能工程，处理丢失的数据数据较少，稀疏和不平衡时的功能选择如何进行实时数据特征工程？如何在 weka 中做这些：交叉验证+不平衡数据+特征选择以分类列为条件的特征工程薪资数据数据解析和特征工程管道的设计模式对特征工程的建议 PHP SVM-功能工程处理不平衡的分类数据？数据不均衡的过度训练

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM