強化學習 - 代理如何知道要選擇哪個動作？

Question

我正在努力理解Q-Learning

基本更新公式：

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我理解公式及其作用，但我的問題是：

代理如何知道選擇Q（st，at）？

我知道代理遵循一些政策π，但你如何創建這個政策呢？

目前我有：

但是，這並沒有真正解決太多，你仍然陷入局部最小/最大。

所以，為了解決問題，我的主要問題是：

對於一無所知且使用無模型算法的代理，您是如何生成初始策略的，因此它知道要采取哪種操作？

Answer 1

該更新公式逐步計算每個狀態中每個操作的預期值。 貪婪的政策總是選擇最有價值的行動。 當您已經學習了這些值時，這是最好的策略。 在學習過程中最常用的策略是ε-貪婪策略，它選擇概率為1-ε的最高值動作，以及概率為ε的隨機動作。