繁体   English   中英

为什么 RL 被称为“强化”学习?

[英]Why is RL called 'reinforcement' learning?

我理解为什么机器学习被这样命名,最重要的是监督和无监督学习背后的命名法。 那么,什么是增强对强化学习?

强化学习中的“强化”是指如何鼓励某些行为,以及如何阻止其他行为。 行为通过从环境体验中获得的奖励而得到强化。

现代强化学习建立在两条主线之上。 一条线索涉及通过试错法学习,起源于动物学习心理学 第二个线程涉及最优控制问题,它是使用值函数和动态规划的解决方案(Sutton and Barto., 2018)。 强化学习从第一个研究线程中借用了他的名字。 根据 Watkins (1989),在研究动物的学习能力时,动物可能会自动获得强化物 例如,在行为方面,正强化物可能是饥饿动物的一小口食物,或者是口渴动物的一小口水。 相反,负强化可能是电击。

附注。 Watkins 提出了 Q-learning 算法。

编辑:(添加更多历史记录)

根据 Sutton 和 Barto(2018 年)的说法:“动物学习背景下的“强化”一词在桑代克(Thorndike)表达效果定律之后很早就开始使用,第一次出现在这种背景下(据我们所知)是在 1927 年巴甫洛夫关于条件反射的专着的英文翻译。巴甫洛夫将强化描述为由于动物接受刺激——强化物——与另一种刺激或反应具有适当的时间关系而强化一种行为模式。”

Sutton、Richard S. 和 Andrew G. Barto。 强化学习:简介。 麻省理工学院出版社,2018 年。
Thorndike,EL 动物智能。 哈夫纳,达里安,康涅狄格州,1911 年。
沃特金斯,克里斯托弗·约翰·康尼什·海拉比。 “从延迟奖励中学习。” (1989)。

强化学习是通过反复试验来强化的。 不正确(或低于最佳)的结果不需要手动更正。 相反,重点是探索,并从这些相同的经历中获得反馈(强化)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM