繁体 English 中英

大型多类NLP分类的数据和样本量不平衡

[英]Imbalanced data and sample size for large multi-class NLP classification

原文 2015-06-23 21:56:45 5 1 machine-learning/ nlp/ classification/ sample/ maxent

我正在一个NLP项目中，希望在此项目中使用MaxEnt将文本分类为20个不同的类之一。 我正在从手写的管理数据中手动创建培训，验证和测试集。

我想确定训练集中的课程所需的样本大小以及验证/测试集合的适当大小。

在现实世界中，这20个结果是不平衡的。 但是我正在考虑创建一个平衡的训练集来帮助建立模型。

所以我有两个问题：

如何为训练集中的每个类别确定合适的样本量？

验证/测试集是否应该失衡以反映模型在面对现实数据时可能遇到的条件？

1 个解决方案

为了确定测试集的样本量，可以使用Hoeffding不等式。

设E为正公差值，设N为数据集的样本量。

然后我们可以计算Hoeffding不等式， p = 1-（2 * EXP（-2 *（ E ^ 2）* N ））。

设E = 0.05（±5％）和N = 750，则p = 0.9530。 这意味着在95.3％的确定性下，您的（样品内）测试误差不会超出样品的5％。

至于训练和验证集的样本大小，有一个惯例来按以下方式拆分数据：训练的50％，验证和测试的25％。 这些集的最佳大小在很大程度上取决于训练集和数据中的噪声量。 有关更多信息，请参见“统计学习的要素”中的“模型评估和选择”。

至于关于不平衡数据集的其他问题，请查看以下线程： https : //stats.stackexchange.com/questions/6254/balanced-sampling-for-network-training

多类分类问题中的不平衡类

[英]Imbalanced classes in multi-class classification problem

神经网络用于不均衡的多类别多标签分类

[英]Neural Network for Imbalanced Multi-Class Multi-Label Classification

大型数据库的多类分类（matlab）

[英]Multi-class classification for large database (matlab)

TPOT：多类数据分类失败

[英]TPOT: classification fails on multi-class data

在 Auto-Sklearn 中处理多类分类不平衡数据集的最佳方法

[英]Best way to handle imbalanced dataset for multi-class classification in Auto-Sklearn

在多类分类的情况下应如何处理不平衡类

[英]What should be done to handle Imbalanced classes in case of Multi-class classification

WEKA中的多类别分类

[英]Multi-Class Classification in WEKA

使用keras进行多类别分类

[英]Multi-class classification using keras

多类分类的 Sigmoid 激活？

[英]Sigmoid activation for multi-class classification?

xgboost (python) 中的多类分类

[英]Multi-class classification in xgboost (python)

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 多类分类问题中的不平衡类神经网络用于不均衡的多类别多标签分类大型数据库的多类分类（matlab） TPOT：多类数据分类失败在 Auto-Sklearn 中处理多类分类不平衡数据集的最佳方法在多类分类的情况下应如何处理不平衡类 WEKA中的多类别分类使用keras进行多类别分类多类分类的 Sigmoid 激活？ xgboost (python) 中的多类分类

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM