繁体   English   中英

强化学习 - 代理如何知道要选择哪个动作?

[英]Reinforcement Learning - How does an Agent know which action to pick?

我正在努力理解Q-Learning

基本更新公式:

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我理解公式及其作用,但我的问题是:

代理如何知道选择Q(st,at)?

我知道代理遵循一些政策π,但你如何创建这个政策呢?

  • 我的代理人正在玩跳棋,所以我专注于无模型算法。
  • 所有代理都知道它所处的当前状态。
  • 我知道它执行操作时,您会更新该实用程序,但它知道如何首先采取该操作。

目前我有:

  • 检查您可以从该状态进行的每个动作。
  • 选择具有最高效用的移动。
  • 更新移动的实用程序。

但是,这并没有真正解决太多,你仍然陷入局部最小/最大。

所以,为了解决问题,我的主要问题是:

对于一无所知且使用无模型算法的代理,您是如何生成初始策略的,因此它知道要采取哪种操作?

该更新公式逐步计算每个状态中每个操作的预期值。 贪婪的政策总是选择最有价值的行动。 当您已经学习了这些值时,这是最好的策略。 在学习过程中最常用的策略是ε-贪婪策略,它选择概率为1-ε的最高值动作,以及概率为ε的随机动作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM