簡體   English   中英

網絡在形狀為N的網格上訓練良好,但是在評估任何變化時均失敗

[英]Network trains well on a grid of shape N but when evaluating on any variation fails

為了進行訓練,我隨機生成一個形狀N的網格,其值分別為0和1。定義了兩個操作[0,1],我想教一個使用DQN的策略,當下一個數字為1時采取0行動,然后采取1行動當數組中的下一個數字為0時。

我正在使用DQN和Keras來創建我的網絡

Example :
N=11
grid=[ 0,1,0,1,1,1,1,0,0,0,0]
Agent mark = 0.5
start point=0
current state =[ 0.5,1,0,1,1,1,1,0,0,0,0]
action=[0,1]

考慮我們僅移至數組的右側:下一步應執行VALID操作0,導致以下狀態:

Next state=[ 0,0.5,1,0,1,1,1,1,0,0,0]

這是通過體驗重播來強制執行的。 它訓練得很好,我的勝率達到100%(通過連續求解10次相同的迷宮來計算。現在是時候根據該網格的變化對它進行評估了:

[0,0,0,0,1,0,1,1,0,1,0]

從...開始

[0.5,0,0,0,1,0,1,1,0,1,0] 

網絡無法預測正確的有效措施,在這種情況下為1。

我的網絡如下所示:

Dense
Relu
Dense
Relu
Dense (number_of_actions)

它學會了通過更多培訓來更好地預測。 訓練8小時后進行了第一次評估。 經過將近36個小時的培訓,它還能更好地預測變化!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM