簡體 English 中英

如何在 Q-learning 中計算 MaxQ？

[英]How do I calculate MaxQ in Q-learning?

原文 2019-10-20 13:32:28 4 1 c++/ reinforcement-learning/ q-learning

我正在實現 Q 學習，特別是貝爾曼方程。

我正在使用網站上的版本來指導他解決問題，但我有疑問：對於 maxQ，我是否使用新 state (s') 的所有 Q 表值來計算最大獎勵 - 在我的情況下 4 可能動作（a'），每個動作都有各自的值 - 還是采取動作（a'）時所有位置的Q表值的總和？

換句話說，我是使用所有可能采取的行動中的最高 Q 值，還是使用所有“相鄰”方格的 Q 值之和？

你總是對你可以采取的所有可能的行動使用最大 Q 值。

想法是選擇下一個 state 具有最大（最佳）Q 值的動作，以保持最佳策略 Qpi*。

Q-learning中的學習曲線

[英]Learning Curve in Q-learning

[英]The huge amount of states in q-learning calculation

[英]Q-learning to learn minesweeping behavior

[英]How do I convert Q format integers to float (or vice versa)?

[英]Q learning for ludo game?

[英]How do I calculate and display the correct percentage?

[英]how do I calculate the stride for a cv::Mat

[英]how do i calculate glFrustum parameters?

[英]How do I calculate the time complexity of the function?

[英]How do I calculate the exponential of a complex matrix?

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Q-learning中的學習曲線 q學習計算中的大量狀態 Q-learning學習掃雷行為如何將Q格式整數轉換為浮點數（反之亦然）？ Q學習ludo游戲嗎？如何計算和顯示正確的百分比？我如何計算 cv::Mat 的步幅我如何計算 glFrustum 參數？如何計算 function 的時間復雜度？如何計算復雜矩陣的指數？

相關標簽