繁体   English   中英

在强化学习中,agent 需要提前知道奖励函数吗?

[英]Does agent need to know reward function in advance in Reinforcement Learning?

像 Q learning 一样,我们有奖励反馈,这是否意味着代理需要提前知道?

代理不需要了解奖励函数。 但它应该为所采取的每一步获得奖励。 请注意,我们可以在剧集结束之前获得零奖励。 术语奖励反馈意味着每个转换都有一些标量值。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM