![](/img/trans.png)
[英]Does agent need to know reward function in advance in Reinforcement Learning?
[英]Reinforcement Learning - How does an Agent know which action to pick?
我正在努力理解Q-Learning
基本更新公式:
Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]
我理解公式及其作用,但我的問題是:
代理如何知道選擇Q(st,at)?
我知道代理遵循一些政策π,但你如何創建這個政策呢?
目前我有:
但是,這並沒有真正解決太多,你仍然陷入局部最小/最大。
所以,為了解決問題,我的主要問題是:
對於一無所知且使用無模型算法的代理,您是如何生成初始策略的,因此它知道要采取哪種操作?
該更新公式逐步計算每個狀態中每個操作的預期值。 貪婪的政策總是選擇最有價值的行動。 當您已經學習了這些值時,這是最好的策略。 在學習過程中最常用的策略是ε-貪婪策略,它選擇概率為1-ε的最高值動作,以及概率為ε的隨機動作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.