[英]Network trains well on a grid of shape N but when evaluating on any variation fails
為了進行訓練,我隨機生成一個形狀N的網格,其值分別為0和1。定義了兩個操作[0,1],我想教一個使用DQN的策略,當下一個數字為1時采取0行動,然后采取1行動當數組中的下一個數字為0時。
我正在使用DQN和Keras來創建我的網絡
Example :
N=11
grid=[ 0,1,0,1,1,1,1,0,0,0,0]
Agent mark = 0.5
start point=0
current state =[ 0.5,1,0,1,1,1,1,0,0,0,0]
action=[0,1]
考慮我們僅移至數組的右側:下一步應執行VALID操作0,導致以下狀態:
Next state=[ 0,0.5,1,0,1,1,1,1,0,0,0]
這是通過體驗重播來強制執行的。 它訓練得很好,我的勝率達到100%(通過連續求解10次相同的迷宮來計算。現在是時候根據該網格的變化對它進行評估了:
[0,0,0,0,1,0,1,1,0,1,0]
從...開始
[0.5,0,0,0,1,0,1,1,0,1,0]
網絡無法預測正確的有效措施,在這種情況下為1。
我的網絡如下所示:
Dense
Relu
Dense
Relu
Dense (number_of_actions)
它學會了通過更多培訓來更好地預測。 訓練8小時后進行了第一次評估。 經過將近36個小時的培訓,它還能更好地預測變化!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.