![](/img/trans.png)
[英]How to correct unstable loss and accuracy during training? (binary classification)
[英]Fluctuating loss during training for text binary classification
我做了的细化和微调Longformer上使用文档的文本二元分类任务Huggingface教练班,我监视一些检查站与Tensorboard的措施。
即使 F1 分数和准确率都相当高,但我对训练损失的波动感到困惑。
我在网上阅读的原因可能是:
这里我已经报告了 F1、准确率、损失和平滑损失的趋势。 灰线是 1e-6 的学习率,而粉红色的是 1e-5。
我恢复了我训练的所有信息:
这可能是什么原因? 尽管 F1 和准确度结果相当不错,但这可以被视为问题吗?
我会先告诉你波动的原因,然后告诉你一个可能的解决方法。
原因
当你训练一个网络时,你会计算一个可以减少损失的梯度。 为此,您需要反向传播损失。 现在,理想情况下,您可以根据数据中的所有样本计算损失,因为这样您基本上会考虑每个样本,并提出一个可以捕获所有样本的梯度。 实际上,由于计算所有样本的梯度的计算复杂性,这是不可能的。
因此,我们使用 small batch_size 作为近似值! 这个想法不是考虑所有样本,我们说我基于一些小样本集计算梯度,但作为权衡,我丢失了有关梯度的信息。
经验法则:较小的批次大小会产生嘈杂的梯度,但它们会更快地收敛,因为每个 epoch 都有更多的更新。 如果您的批量大小为 1,您将在每个 epoch 中进行 N 次更新。 如果是 N,则每个 epoch 将只有 1 次更新。 另一方面,较大的批次大小会提供更多信息梯度,但它们收敛速度较慢并增加计算复杂度。
这就是为什么对于较小的批次大小,您会观察到不同的损失/波动,因为梯度是嘈杂的。
解决方案:累积梯度
在内存问题的情况下,您可以使用累积梯度的概念来对抗波动损失。 它在每个小批量之后计算损失和梯度,但不是更新每个批次的权重,而是等待并累积连续批次的梯度。 然后最终根据指定批次数后的累积梯度更新参数。
在文档的此页面上,您可以找到如何应用它: https : //huggingface.co/transformers/v1.2.0/examples.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.