繁体 English 中英

为什么在强化学习中需要设置MDP

[英]Why do we need MDP setting in reinforcement learning

原文 2017-04-03 17:49:55 1 1 machine-learning/ deep-learning/ reinforcement-learning

在许多强化学习（RL）论文中，马尔可夫决策过程（MDP）是RL问题的典型问题设置。 此设置的真正好处是什么？ 一些论文使用LSTM作为其策略网络结构，这显然违反了MDP假设，并且更有意义。

1 个解决方案

基本上，马尔可夫决策过程提供了一个理论框架，可以分析算法的收敛性保证以及其他理论属性。 尽管LSTM和其他与RL相结合的深度学习方法已经取得了令人印象深刻的结果，但它们缺乏扎实的理论背景，无法理解或确保算法何时将学习有用的东西，或者所学习的策略与最佳策略之间的距离。

为什么老虎机问题在强化学习中也称为一步/状态 MDP？

[英]Why the bandit problem is also called a one-step/state MDP in Reinforcement learning?

对理解强化学习MDP的Q（s，a）公式感到困惑吗？

[英]Confusion in understanding Q(s,a) formula for Reinforcement Learning MDP?

MDP & Reinforcement Learning - VI、PI 和 QLearning 算法的收敛性比较

[英]MDP & Reinforcement Learning - Convergence Comparison of VI, PI and QLearning Algorithms

在强化学习中设置gamma和lambda

[英]Setting gamma and lambda in Reinforcement Learning

机器学习，为什么我们需要加权数据

[英]machine learning, why do we need to weight data

为什么 RL 被称为“强化”学习？

[英]Why is RL called 'reinforcement' learning?

我需要帮助来了解强化学习代码

[英]I need help understanding reinforcement learning code

[英]Reinforcement Learning

什么时候需要深层强化学习而不是q学习？

[英]Why and when is deep reinforcement learning needed instead of q-learning?

我们是否需要 GPU 系统来训练深度学习模型？

[英]Do we need a GPU system to train an deep learning model?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 为什么老虎机问题在强化学习中也称为一步/状态 MDP？对理解强化学习MDP的Q（s，a）公式感到困惑吗？ MDP & Reinforcement Learning - VI、PI 和 QLearning 算法的收敛性比较在强化学习中设置gamma和lambda 机器学习，为什么我们需要加权数据为什么 RL 被称为“强化”学习？我需要帮助来了解强化学习代码强化学习什么时候需要深层强化学习而不是q学习？我们是否需要 GPU 系统来训练深度学习模型？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM