繁体   English   中英

什么是强化机器学习?

[英]What is Reinforcement machine learning?

我知道有监督和无监督学习,但仍然不了解强化机器学习的工作原理。

有人可以帮我举个正确的例子吗? 以及它是如何工作的用例?

强化机器学习是指机器从经验中学习,反馈是“好”还是“坏”。

一个经典的例子是为游戏训练代理。 您首先开始使用您拥有(监督)的数据训练您的代理,当数据耗尽时,开始训练多个代理并让它们相互竞争。 获胜者得到“强化”,并继续前进。

这是用于训练 AlphaGo的“技巧”之一(之前在TD-Gammon 中

... 因此,通过让它们相互对抗,使用这些游戏的结果作为训练信号,改进了策略网络。 这被称为强化学习,甚至是深度强化学习(因为被训练的网络是深度的)。

您提到了监督学习和无监督学习。 这3个略有不同。

  • 监督学习:每个数据元组都有标签。

  • 无监督学习:你没有元组的标签,但你想找到输入之间的关系

  • 强化倾向:稀疏条目的标签很少。 这个标签就是奖励。

强化学习是一个人如何了解新情况的过程。 它采取任何随机动作,观察环境的行为并相应地学习。

什么是奖励。?

奖励是来自环境的正面或负面反馈。 一个动作负责它所有未来的回报。 因此它需要采取那些可以在未来获得最积极回报的行动。

这可以通过 Q-learning 算法来实现。 我要求你检查一下这个话题。

我使用强化算法来训练吃豆子。 我希望你知道这个游戏。 目标是采取行动,使其不应该击中鬼魂,并且还应该能够从地图上获取所有点。 它经过多次迭代和数千次游戏后自我训练。 我也用同样的方法训练汽车在特定轨道上行驶!

强化学习可用于训练 AI 学习任何游戏。! 虽然更复杂的游戏需要神经网络,这就是所谓的深度学习。

强化学习是一种因做好(或做坏)事而获得奖励的模型。 通过监督学习,由某个策展人来标记模型可以从中学习的所有数据。 这就是强化学习的美妙之处,模型从其环境中获得直接反馈并自动调整其行为。 这就是人类如何学习许多我们简单的生活课程(例如,避免伤害你的事情,做更多让你感觉良好的事情)

如今,许多强化学习都集中在深度学习上,最大的例子是视频游戏。 强化学习也是一种强大的个性化工具。 您可以将亚马逊推荐器视为一种强化学习算法,当它通过接收点击或购买推荐正确的产品时获得奖励,或者当用户开始观看电影时,Netflix 推荐器获得奖励。

强化学习通常用于机器人、游戏和导航。

通过强化学习,算法通过反复试验发现哪些动作会产生最大的回报。

这种类型的学习具有三个主要组成部分:代理(学习者或决策者)、环境(代理与之交互的一切)和行动(代理可以做什么)。

目标是让代理选择在给定时间内最大化预期奖励的动作。

通过遵循良好的策略,代理将更快地达到目标。 所以强化学习的目标是学习最好的策略。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM