简体   繁体   English

MaxQ 是所有可能奖励的总和还是最高可能奖励?

[英]Is MaxQ' sum of all possible rewards or highest possible reward?

I'm coding a simple q-learning example and to update q-values you need a maxQ'.我正在编写一个简单的 q-learning 示例并更新 q 值,您需要一个 maxQ'。

I'm not sure if maxQ' is referring to the sum of all possible rewards or the highest possible reward:我不确定 maxQ' 是指所有可能奖励的总和还是最高可能奖励:

在此处输入图片说明

That is maximum Q-values among all possible actions for the state s' .这是状态s'所有可能操作中的最大Q-values Basically, you need to take a max over all Q(s',a') for all valid actions a' in state s' .基本上,您需要对状态s'所有有效操作a'所有Q(s',a')max

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM