簡體   English   中英

使用神經網絡將舊系統更新為Q學習

[英]Updating an old system to Q-learning with Neural Networks

最近我一直在閱讀很多關於神經網絡Q學習的內容,並考慮更新現有的舊優化系統,該系統由一個簡單的前饋神經網絡組成,該系統近似於許多感知輸入的輸出。 然后輸出鏈接到基於線性模型的控制器,該控制器以某種方式再次輸出最佳動作,因此整個模型可以收斂到期望的目標。

識別線性模型是一項耗費任務。 我考慮用Q函數的神經網絡近似來將整個事物翻新為無模型Q學習。 我畫了一張圖表,問你我是否在正確的軌道上。

模型

我的問題:如果你認為我理解這個概念,我的訓練集應該由一側的State Features vectorsQ_target - Q_current (這里我假設有一個增加的獎勵),以迫使整個模型朝向目標還是我錯過了什么?

注意:該圖顯示了上部舊系統與下部建議更改之間的比較。

編輯:狀態神經網絡是否保證體驗重播?

您可以只使用當前狀態中所有操作的所有Q值作為網絡中的輸出層。 這里繪制的圖表很糟糕

因此,您可以優先考慮NN一次輸出多個Q值的能力。 然后,使用由Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a)導出的損失返回道具,其中max(Q(s', a'))可以很容易地從輸出層計算出來。

如果您有其他問題,請與我們聯系。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM