繁体 English 中英

SARSA在强化学习中

[英]SARSA in Reinforcement Learning

原文 2018-05-15 23:48:13 4 3 algorithm/ machine-learning/ reinforcement-learning

我在无模型强化学习中遇到了SARSA算法。 具体来说，在每个状态下，您都将执行一个操作a ，然后观察到一个新状态s' 。

我的问题是，如果您没有状态转移概率方程P{next state | current state = s0} P{next state | current state = s0} ，您如何知道下一个状态将是什么？

我尝试 ：你只是尝试的动作a出来，然后从环境观察？

3 个解决方案

通常，是的，您在环境中执行操作，环境会告诉您下一个状态是什么。

是。 基于存储在动作值函数中的代理经验，他的行为策略pi将动作a中的当前状态s映射到动作a中，从而导致他进入下一状态s' ，然后到下一动作a' 。

状态作用对序列的通量图。

Q学习和SARSA中使用了一种称为TD-Learning的技术来避免学习过渡概率。

简而言之，当您在SARSA中进行采样（即与系统交互）并收集数据样本（状态，动作，奖励，下一个状态，下一个动作）时，使用样本更新参数时会隐式考虑转换概率您的模型。 例如，每当您选择当前状态下的一个动作，然后获得奖励和新状态时，系统实际上就根据转移概率p（s'，r | a生成了奖励和新状态。，s）。

您可以在本书中找到简单的说明，

人工智能的现代方法

用强化学习训练神经网络

[英]Training a Neural Network with Reinforcement learning

何时使用某种强化学习算法？

[英]When to use a certain Reinforcement Learning algorithm?

使用乌龟图形的强化学习算法不起作用

[英]Reinforcement learning algorithm using turtle graphics not functioning

马尔可夫强化学习的拟合值迭代算法

[英]Fitted value iteration algorithm of Markov Reinforcement Learning

如何将强化学习应用于连续动作空间？

[英]How can I apply reinforcement learning to continuous action spaces?

具有离散动作的连续状态空间的强化学习（在NetLogo中）

[英]Reinforcement Learning for Continuous State Spaces with Discrete Actions (in NetLogo)

学习如何进行快速排序

[英]Learning how to do quicksort

用于学习的间隔重复（SRS）

[英]Spaced repetition (SRS) for learning

关键字关联学习算法

[英]Keyword association learning algorithm

机器学习算法

[英]Machine learning algorithm

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 用强化学习训练神经网络何时使用某种强化学习算法？使用乌龟图形的强化学习算法不起作用马尔可夫强化学习的拟合值迭代算法如何将强化学习应用于连续动作空间？具有离散动作的连续状态空间的强化学习（在NetLogo中）学习如何进行快速排序用于学习的间隔重复（SRS）关键字关联学习算法机器学习算法

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM