繁体   English   中英

为什么在强化学习中需要设置MDP

[英]Why do we need MDP setting in reinforcement learning

在许多强化学习(RL)论文中,马尔可夫决策过程(MDP)是RL问题的典型问题设置。 此设置的真正好处是什么? 一些论文使用LSTM作为其策略网络结构,这显然违反了MDP假设,并且更有意义。

基本上,马尔可夫决策过程提供了一个理论框架,可以分析算法的收敛性保证以及其他理论属性。 尽管LSTM和其他与RL相结合的深度学习方法已经取得了令人印象深刻的结果,但它们缺乏扎实的理论背景,无法理解或确保算法何时将学习有用的东西,或者所学习的策略与最佳策略之间的距离。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM