[英]SARSA in Reinforcement Learning
通常,是的,您在环境中执行操作,环境会告诉您下一个状态是什么。
是。 基于存储在动作值函数中的代理经验,他的行为策略pi将动作a中的当前状态s映射到动作a中 ,从而导致他进入下一状态s' ,然后到下一动作a' 。
Q学习和SARSA中使用了一种称为TD-Learning的技术来避免学习过渡概率。
简而言之,当您在SARSA中进行采样(即与系统交互)并收集数据样本(状态,动作,奖励,下一个状态,下一个动作)时,使用样本更新参数时会隐式考虑转换概率您的模型。 例如,每当您选择当前状态下的一个动作,然后获得奖励和新状态时,系统实际上就根据转移概率p(s',r | a生成了奖励和新状态。 ,s)。
您可以在本书中找到简单的说明,
人工智能的现代方法
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.