繁体 English 中英

为什么 RL 被称为“强化”学习？

[英]Why is RL called 'reinforcement' learning?

原文 2018-05-28 00:03:38 9 3 machine-learning/ deep-learning/ reinforcement-learning

我理解为什么机器学习被这样命名，最重要的是监督和无监督学习背后的命名法。 那么，什么是增强对强化学习？

3 个解决方案

强化学习中的“强化”是指如何鼓励某些行为，以及如何阻止其他行为。 行为通过从环境体验中获得的奖励而得到强化。

现代强化学习建立在两条主线之上。 一条线索涉及通过试错法学习，起源于动物学习心理学。 第二个线程涉及最优控制问题，它是使用值函数和动态规划的解决方案（Sutton and Barto., 2018）。 强化学习从第一个研究线程中借用了他的名字。 根据 Watkins (1989)，在研究动物的学习能力时，动物可能会自动获得强化物。 例如，在行为方面，正强化物可能是饥饿动物的一小口食物，或者是口渴动物的一小口水。 相反，负强化可能是电击。

附注。 Watkins 提出了 Q-learning 算法。

编辑：（添加更多历史记录）

根据 Sutton 和 Barto（2018 年）的说法：“动物学习背景下的“强化”一词在桑代克（Thorndike）表达效果定律之后很早就开始使用，第一次出现在这种背景下（据我们所知）是在 1927 年巴甫洛夫关于条件反射的专着的英文翻译。巴甫洛夫将强化描述为由于动物接受刺激——强化物——与另一种刺激或反应具有适当的时间关系而强化一种行为模式。”

Sutton、Richard S. 和 Andrew G. Barto。 强化学习：简介。 麻省理工学院出版社，2018 年。
Thorndike，EL 动物智能。 哈夫纳，达里安，康涅狄格州，1911 年。
沃特金斯，克里斯托弗·约翰·康尼什·海拉比。 “从延迟奖励中学习。” (1989)。

强化学习是通过反复试验来强化的。 不正确（或低于最佳）的结果不需要手动更正。 相反，重点是探索，并从这些相同的经历中获得反馈（强化）。

强化学习和深度RL有什么区别？

[英]What is the difference between reinforcement learning and deep RL?

深度强化学习（keras-rl）提前停止

[英]Deep Reinforcement Learning (keras-rl) Early stopping

为什么老虎机问题在强化学习中也称为一步/状态 MDP？

[英]Why the bandit problem is also called a one-step/state MDP in Reinforcement learning?

[英]Reinforcement Learning

什么时候需要深层强化学习而不是q学习？

[英]Why and when is deep reinforcement learning needed instead of q-learning?

当行动不影响强化学习中的状态时，这叫什么？

[英]What is it called when the action doesnt affect the state in reinforcement learning?

为什么在强化学习中需要设置MDP

[英]Why do we need MDP setting in reinforcement learning

SARSA在强化学习中

[英]SARSA in Reinforcement Learning

具有可变动作的强化学习

[英]Reinforcement Learning With Variable Actions

什么是强化机器学习？

[英]What is Reinforcement machine learning?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 强化学习和深度RL有什么区别？深度强化学习（keras-rl）提前停止为什么老虎机问题在强化学习中也称为一步/状态 MDP？强化学习什么时候需要深层强化学习而不是q学习？当行动不影响强化学习中的状态时，这叫什么？为什么在强化学习中需要设置MDP SARSA在强化学习中具有可变动作的强化学习什么是强化机器学习？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM