繁体   English   中英

大型多类NLP分类的数据和样本量不平衡

[英]Imbalanced data and sample size for large multi-class NLP classification

我正在一个NLP项目中,希望在此项目中使用MaxEnt将文本分类为20个不同的类之一。 我正在从手写的管理数据中手动创建培训,验证和测试集。

我想确定训练集中的课程所需的样本大小以及验证/测试集合的适当大小。

在现实世界中,这20个结果是不平衡的。 但是我正在考虑创建一个平衡的训练集来帮助建立模型。

所以我有两个问题:

如何为训练集中的每个类别确定合适的样本量?

验证/测试集是否应该失衡以反映模型在面对现实数据时可能遇到的条件?

为了确定测试集的样本量,可以使用Hoeffding不等式。

E为正公差值,设N为数据集的样本量。

然后我们可以计算Hoeffding不等式, p = 1-(2 * EXP(-2 *( E ^ 2)* N ))。

E = 0.05(±5%)和N = 750,则p = 0.9530。 这意味着在95.3%的确定性下,您的(样品内)测试误差不会超出样品的5%。

至于训练和验证集的样本大小,有一个惯例来按以下方式拆分数据:训练的50%,验证和测试的25%。 这些集的最佳大小在很大程度上取决于训练集和数据中的噪声量。 有关更多信息,请参见“统计学习的要素”中的“模型评估和选择”。

至于关于不平衡数据集的其他问题,请查看以下线程: https : //stats.stackexchange.com/questions/6254/balanced-sampling-for-network-training

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM