繁体 English 中英

文本二元分类训练期间的波动损失

[英]Fluctuating loss during training for text binary classification

原文 2020-09-04 14:56:10 6 1 python/ machine-learning/ pytorch/ huggingface-transformers/ allennlp

我做了的细化和微调Longformer上使用文档的文本二元分类任务Huggingface教练班，我监视一些检查站与Tensorboard的措施。

即使 F1 分数和准确率都相当高，但我对训练损失的波动感到困惑。

我在网上阅读的原因可能是：

学习率太高，但我尝试了 3 个值（1e-4、1e-5 和 1e-6），它们都产生了相同的效果
小批量。 我正在使用具有 8xK80 GPU 的Sagemaker 笔记本 p2.8xlarge 。 我可以用来避免CUDA 内存不足错误的每个 GPU 的批量大小为 1。所以总批量大小为8 。 我的直觉是，对于包含 57K 个示例（每个 epoch 7K 步）的数据集来说，8 的 bs 太小了。 不幸的是，这是我可以使用的最高值。

这里我已经报告了 F1、准确率、损失和平滑损失的趋势。 灰线是 1e-6 的学习率，而粉红色的是 1e-5。

我恢复了我训练的所有信息：

批量大小：1 x 8GPU = 8
学习率： 1e-4 、 1e-5 、 1e-6 （所有这些都经过测试，损失没有改善）
型号: Longformer
数据集：
- 训练集： 57K 个例子
- 开发集： 12K 示例
- 测试集： 12K 示例

这可能是什么原因？ 尽管 F1 和准确度结果相当不错，但这可以被视为问题吗？

1 个解决方案

我会先告诉你波动的原因，然后告诉你一个可能的解决方法。

原因

当你训练一个网络时，你会计算一个可以减少损失的梯度。 为此，您需要反向传播损失。 现在，理想情况下，您可以根据数据中的所有样本计算损失，因为这样您基本上会考虑每个样本，并提出一个可以捕获所有样本的梯度。 实际上，由于计算所有样本的梯度的计算复杂性，这是不可能的。

因此，我们使用 small batch_size 作为近似值！ 这个想法不是考虑所有样本，我们说我基于一些小样本集计算梯度，但作为权衡，我丢失了有关梯度的信息。

经验法则：较小的批次大小会产生嘈杂的梯度，但它们会更快地收敛，因为每个 epoch 都有更多的更新。 如果您的批量大小为 1，您将在每个 epoch 中进行 N 次更新。 如果是 N，则每个 epoch 将只有 1 次更新。 另一方面，较大的批次大小会提供更多信息梯度，但它们收敛速度较慢并增加计算复杂度。

这就是为什么对于较小的批次大小，您会观察到不同的损失/波动，因为梯度是嘈杂的。

解决方案：累积梯度

在内存问题的情况下，您可以使用累积梯度的概念来对抗波动损失。 它在每个小批量之后计算损失和梯度，但不是更新每个批次的权重，而是等待并累积连续批次的梯度。 然后最终根据指定批次数后的累积梯度更新参数。

在文档的此页面上，您可以找到如何应用它： https : //huggingface.co/transformers/v1.2.0/examples.html

如何在训练过程中纠正不稳定的损失和准确率？（二元分类）

[英]How to correct unstable loss and accuracy during training? (binary classification)

深度学习中二进制分类问题的准确性和损失波动

[英]Accuracy and loss fluctuating in binary classification problem in deep learning

波动训练损失背后的直觉

[英]Intuition behind fluctuating training loss

文本分类的训练和验证准确性和损失

[英]training and validation accuracy and loss for text classification

训练精度很高，训练过程中损失少，但分类不好

[英]Very high training accuracy and low loss during training, but bad classification

图像二分类验证准确率和损失曲线波动的问题，请问分析和解决方法

[英]Questions that in case of fluctuating the validation accuracy and loss curve for image binary classification, ask the way of analysis and solution

训练CNN模型图像分类时的张量流量NaN损失

[英]tensorflow NaN loss during training CNN model image classification

Capsule.networks 用于二进制分类而不是训练

[英]Capsule networks for binary classification not training

验证损失和验证准确率都高于训练损失和acc和波动

[英]Validation loss and validation accuracy both are higher than training loss and acc and fluctuating

在TensorFlow培训期间打印丢失

[英]Printing the loss during TensorFlow training

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在训练过程中纠正不稳定的损失和准确率？（二元分类）深度学习中二进制分类问题的准确性和损失波动波动训练损失背后的直觉文本分类的训练和验证准确性和损失训练精度很高，训练过程中损失少，但分类不好图像二分类验证准确率和损失曲线波动的问题，请问分析和解决方法训练CNN模型图像分类时的张量流量NaN损失 Capsule.networks 用于二进制分类而不是训练验证损失和验证准确率都高于训练损失和acc和波动在TensorFlow培训期间打印丢失

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM