[英]Perplexity calculations rise between each significantly drop
我正在使用LSTM和tensorflow的翻译模型训练会话代理。 我使用分批训练,因此在每个纪元开始之后,训练数据的混乱程度明显下降。 可以用我批量读取数据的方式来解释这一下降,因为我保证训练数据中的每个训练对在每个时期都被完全处理一次。 当一个新纪元开始时,模型在先前纪元中所做的改进将在再次遇到训练数据时显示其利润,表示为图中的下降。 其他批量方法(例如tensorflow转换模型中使用的方法)将不会导致相同的行为,因为它们的方法是将整个训练数据加载到内存中并从中随机选择样本。
步骤,困惑
(从困惑中切出的一小部分显示在350000和430000处出现了下降。在下降之间,困惑度略有上升)
但是,我的问题是关于下降之后的趋势。 从图中可以明显看出,困惑度略有上升(在步骤〜350000之后的每个时期),直到下一个下降为止。 有人可以给出答案或理论来解释为什么会这样吗?
这将是过度拟合的典型情况。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.