網絡在形狀為N的網格上訓練良好，但是在評估任何變化時均失敗

Question

為了進行訓練，我隨機生成一個形狀N的網格，其值分別為0和1。定義了兩個操作[0,1]，我想教一個使用DQN的策略，當下一個數字為1時采取0行動，然后采取1行動當數組中的下一個數字為0時。

我正在使用DQN和Keras來創建我的網絡

Example :
N=11
grid=[ 0,1,0,1,1,1,1,0,0,0,0]
Agent mark = 0.5
start point=0
current state =[ 0.5,1,0,1,1,1,1,0,0,0,0]
action=[0,1]

考慮我們僅移至數組的右側：下一步應執行VALID操作0，導致以下狀態：

Next state=[ 0,0.5,1,0,1,1,1,1,0,0,0]

這是通過體驗重播來強制執行的。 它訓練得很好，我的勝率達到100％（通過連續求解10次相同的迷宮來計算。現在是時候根據該網格的變化對它進行評估了：

[0,0,0,0,1,0,1,1,0,1,0]

從...開始

[0.5,0,0,0,1,0,1,1,0,1,0]

網絡無法預測正確的有效措施，在這種情況下為1。

我的網絡如下所示：

Dense
Relu
Dense
Relu
Dense (number_of_actions)

Answer 1

它學會了通過更多培訓來更好地預測。 訓練8小時后進行了第一次評估。 經過將近36個小時的培訓，它還能更好地預測變化！