强化学习 - 代理如何知道要选择哪个动作？

Question

我正在努力理解Q-Learning

基本更新公式：

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我理解公式及其作用，但我的问题是：

代理如何知道选择Q（st，at）？

我知道代理遵循一些政策π，但你如何创建这个政策呢？

目前我有：

但是，这并没有真正解决太多，你仍然陷入局部最小/最大。

所以，为了解决问题，我的主要问题是：

对于一无所知且使用无模型算法的代理，您是如何生成初始策略的，因此它知道要采取哪种操作？

Answer 1

该更新公式逐步计算每个状态中每个操作的预期值。 贪婪的政策总是选择最有价值的行动。 当您已经学习了这些值时，这是最好的策略。 在学习过程中最常用的策略是ε-贪婪策略，它选择概率为1-ε的最高值动作，以及概率为ε的随机动作。