繁体   English   中英

SARSA在强化学习中

[英]SARSA in Reinforcement Learning

我在无模型强化学习中遇到了SARSA算法。 具体来说,在每个状态下,您都将执行一个操作a ,然后观察到一个新状态s'

我的问题是,如果您没有状态转移概率方程P{next state | current state = s0} P{next state | current state = s0} ,您如何知道下一个状态将是什么?

我尝试 :你只是尝试的动作a出来,然后从环境观察? 在此处输入图片说明

通常,是的,您在环境中执行操作,环境会告诉您下一个状态是什么。

是。 基于存储在动作值函数中的代理经验,他的行为策略pi将动作a中的当前状态s映射到动作a中 ,从而导致他进入下一状态s' ,然后到下一动作a'

状态作用对序列的通量图。

Q学习和SARSA中使用了一种称为TD-Learning的技术来避免学习过渡概率。

简而言之,当您在SARSA中进行采样(即与系统交互)并收集数据样本(状态,动作,奖励,下一个状态,下一个动作)时,使用样本更新参数时会隐式考虑转换概率您的模型。 例如,每当您选择当前状态下的一个动作,然后获得奖励和新状态时,系统实际上就根据转移概率p(s',r | a生成了奖励和新状态。 ,s)。

您可以在本书中找到简单的说明,

人工智能的现代方法

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM