繁体 English 中英

什么是强化机器学习？

[英]What is Reinforcement machine learning?

原文 2017-01-14 06:57:58 2 4 machine-learning

我知道有监督和无监督学习，但仍然不了解强化机器学习的工作原理。

有人可以帮我举个正确的例子吗？ 以及它是如何工作的用例？

4 个解决方案

强化机器学习是指机器从经验中学习，反馈是“好”还是“坏”。

一个经典的例子是为游戏训练代理。 您首先开始使用您拥有（监督）的数据训练您的代理，当数据耗尽时，开始训练多个代理并让它们相互竞争。 获胜者得到“强化”，并继续前进。

这是用于训练 AlphaGo的“技巧”之一（之前在TD-Gammon 中）

... 因此，通过让它们相互对抗，使用这些游戏的结果作为训练信号，改进了策略网络。 这被称为强化学习，甚至是深度强化学习（因为被训练的网络是深度的）。

您提到了监督学习和无监督学习。 这3个略有不同。

监督学习：每个数据元组都有标签。
无监督学习：你没有元组的标签，但你想找到输入之间的关系
强化倾向：稀疏条目的标签很少。 这个标签就是奖励。

强化学习是一个人如何了解新情况的过程。 它采取任何随机动作，观察环境的行为并相应地学习。

什么是奖励。？

奖励是来自环境的正面或负面反馈。 一个动作负责它所有未来的回报。 因此它需要采取那些可以在未来获得最积极回报的行动。

这可以通过 Q-learning 算法来实现。 我要求你检查一下这个话题。

我使用强化算法来训练吃豆子。 我希望你知道这个游戏。 目标是采取行动，使其不应该击中鬼魂，并且还应该能够从地图上获取所有点。 它经过多次迭代和数千次游戏后自我训练。 我也用同样的方法训练汽车在特定轨道上行驶！

强化学习可用于训练 AI 学习任何游戏。！ 虽然更复杂的游戏需要神经网络，这就是所谓的深度学习。

强化学习是一种因做好（或做坏）事而获得奖励的模型。 通过监督学习，由某个策展人来标记模型可以从中学习的所有数据。 这就是强化学习的美妙之处，模型从其环境中获得直接反馈并自动调整其行为。 这就是人类如何学习许多我们简单的生活课程（例如，避免伤害你的事情，做更多让你感觉良好的事情）

如今，许多强化学习都集中在深度学习上，最大的例子是视频游戏。 强化学习也是一种强大的个性化工具。 您可以将亚马逊推荐器视为一种强化学习算法，当它通过接收点击或购买推荐正确的产品时获得奖励，或者当用户开始观看电影时，Netflix 推荐器获得奖励。

强化学习通常用于机器人、游戏和导航。

通过强化学习，算法通过反复试验发现哪些动作会产生最大的回报。

这种类型的学习具有三个主要组成部分：代理（学习者或决策者）、环境（代理与之交互的一切）和行动（代理可以做什么）。

目标是让代理选择在给定时间内最大化预期奖励的动作。

通过遵循良好的策略，代理将更快地达到目标。 所以强化学习的目标是学习最好的策略。

在机器学习中使用反馈或强化？

[英]Use feedback or reinforcement in machine learning?

NEAT和强化学习之间有什么关系？

[英]What is the relation between NEAT and reinforcement learning?

强化学习和深度RL有什么区别？

[英]What is the difference between reinforcement learning and deep RL?

强化学习中参数化策略的含义是什么？

[英]What is the meaning of paramaterized policy in Reinforcement learning?

强化学习文献中的“软”是什么意思？

[英]What does "soft" in reinforcement learning literature mean?

[英]Reinforcement Learning

强化学习、深度学习、深度强化学习有什么区别？ [关闭]

[英]What's the difference between reinforcement learning, deep learning, and deep reinforcement learning? [closed]

什么是机器学习中的学习曲线？

[英]What is a Learning Curve in machine learning?

机器学习中的“适合”是什么？

[英]What is 'fit' in Machine learning?

强化学习中折扣因子γ（gamma）的全部含义是什么？

[英]What is the Full Meaning of the Discount Factor γ (gamma) in Reinforcement Learning?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在机器学习中使用反馈或强化？ NEAT和强化学习之间有什么关系？强化学习和深度RL有什么区别？强化学习中参数化策略的含义是什么？强化学习文献中的“软”是什么意思？强化学习强化学习、深度学习、深度强化学习有什么区别？ [关闭] 什么是机器学习中的学习曲线？机器学习中的“适合”是什么？强化学习中折扣因子γ（gamma）的全部含义是什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM