簡體   English   中英

如何在 Q-learning 中計算 MaxQ?

[英]How do I calculate MaxQ in Q-learning?

我正在實現 Q 學習,特別是貝爾曼方程。 貝爾曼方程

我正在使用網站上的版本來指導他解決問題,但我有疑問:對於 maxQ,我是否使用新 state (s') 的所有 Q 表值來計算最大獎勵 - 在我的情況下 4 可能動作(a'),每個動作都有各自的值 - 還是采取動作(a')時所有位置的Q表值的總和?

換句話說,我是使用所有可能采取的行動中的最高 Q 值,還是使用所有“相鄰”方格的 Q 值之和?

你總是對你可以采取的所有可能的行動使用最大 Q 值。

想法是選擇下一個 state 具有最大(最佳)Q 值的動作,以保持最佳策略 Qpi*。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM