[英]Is MaxQ' sum of all possible rewards or highest possible reward?
That is maximum Q-values
among all possible actions for the state s'
.这是状态
s'
所有可能操作中的最大Q-values
。 Basically, you need to take a max
over all Q(s',a')
for all valid actions a'
in state s'
.基本上,您需要对状态
s'
所有有效操作a'
所有Q(s',a')
取max
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.