繁体   English   中英

用于时间序列预测的 LSTM 中特定时期后的嘈杂火车损失(Keras)

[英]Noisy train loss after specific epoch in LSTM for time series forecasting (Keras)

我正在训练 LSTM model 进行时间序列预测。 这是火车损失 plot。

我

这是一个提前一步的预测案例,所以我正在使用滚动 window 训练 model。 在这里,我们有 26 个步骤的预测(对于每一步,我再次训练 model)。 如您所见,在 Epoch #25~27 之后,训练损失突然变得如此嘈杂。 为什么我们有这种行为?

附言。 我正在使用带有tanh激活的 LSTM。 另外,我使用了L1L2正则化,但行为是相同的。 LSTM之后的层是具有linear激活的Dense层,I MinMaxScaler应用于输入数据,优化器是Adam 我在验证数据集中也看到了同样的行为。

如果不是这样,您是否使用渐变剪裁可以帮助您,因为渐变值变得非常非常小或大,使得 model 学习更好地取得进一步进展非常困难。 循环层可能已经创建了这个损失谷,你可能会因为梯度太大而错过它。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM