簡體 English 中英

使用神經網絡將舊系統更新為Q學習

[英]Updating an old system to Q-learning with Neural Networks

原文 2016-10-20 15:09:30 4 1 python/ machine-learning/ tensorflow/ artificial-intelligence/ reinforcement-learning

最近我一直在閱讀很多關於神經網絡Q學習的內容，並考慮更新現有的舊優化系統，該系統由一個簡單的前饋神經網絡組成，該系統近似於許多感知輸入的輸出。 然后輸出鏈接到基於線性模型的控制器，該控制器以某種方式再次輸出最佳動作，因此整個模型可以收斂到期望的目標。

識別線性模型是一項耗費任務。 我考慮用Q函數的神經網絡近似來將整個事物翻新為無模型Q學習。 我畫了一張圖表，問你我是否在正確的軌道上。

我的問題：如果你認為我理解這個概念，我的訓練集應該由一側的State Features vectors和Q_target - Q_current （這里我假設有一個增加的獎勵），以迫使整個模型朝向目標還是我錯過了什么？

注意：該圖顯示了上部舊系統與下部建議更改之間的比較。

編輯：狀態神經網絡是否保證體驗重播？

1 個解決方案

您可以只使用當前狀態中所有操作的所有Q值作為網絡中的輸出層。 這里繪制的圖表很糟糕

因此，您可以優先考慮NN一次輸出多個Q值的能力。 然后，使用由Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a)導出的損失返回道具，其中max(Q(s', a'))可以很容易地從輸出層計算出來。

如果您有其他問題，請與我們聯系。