[英]Does agent need to know reward function in advance in Reinforcement Learning?
像 Q learning 一样,我们有奖励反馈,这是否意味着代理需要提前知道?
代理不需要了解奖励函数。 但它应该为所采取的每一步获得奖励。 请注意,我们可以在剧集结束之前获得零奖励。 术语奖励反馈意味着每个转换都有一些标量值。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.