[英]Perplexity calculations rise between each significantly drop
我正在使用LSTM和tensorflow的翻譯模型訓練會話代理。 我使用分批訓練,因此在每個紀元開始之后,訓練數據的混亂程度明顯下降。 可以用我批量讀取數據的方式來解釋這一下降,因為我保證訓練數據中的每個訓練對在每個時期都被完全處理一次。 當一個新紀元開始時,模型在先前紀元中所做的改進將在再次遇到訓練數據時顯示其利潤,表示為圖中的下降。 其他批量方法(例如tensorflow轉換模型中使用的方法)將不會導致相同的行為,因為它們的方法是將整個訓練數據加載到內存中並從中隨機選擇樣本。
步驟,困惑
(從困惑中切出的一小部分顯示在350000和430000處出現了下降。在下降之間,困惑度略有上升)
但是,我的問題是關於下降之后的趨勢。 從圖中可以明顯看出,困惑度略有上升(在步驟〜350000之后的每個時期),直到下一個下降為止。 有人可以給出答案或理論來解釋為什么會這樣嗎?
這將是過度擬合的典型情況。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.