簡體   English   中英

強化學習 - 代理如何知道要選擇哪個動作?

[英]Reinforcement Learning - How does an Agent know which action to pick?

我正在努力理解Q-Learning

基本更新公式:

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我理解公式及其作用,但我的問題是:

代理如何知道選擇Q(st,at)?

我知道代理遵循一些政策π,但你如何創建這個政策呢?

  • 我的代理人正在玩跳棋,所以我專注於無模型算法。
  • 所有代理都知道它所處的當前狀態。
  • 我知道它執行操作時,您會更新該實用程序,但它知道如何首先采取該操作。

目前我有:

  • 檢查您可以從該狀態進行的每個動作。
  • 選擇具有最高效用的移動。
  • 更新移動的實用程序。

但是,這並沒有真正解決太多,你仍然陷入局部最小/最大。

所以,為了解決問題,我的主要問題是:

對於一無所知且使用無模型算法的代理,您是如何生成初始策略的,因此它知道要采取哪種操作?

該更新公式逐步計算每個狀態中每個操作的預期值。 貪婪的政策總是選擇最有價值的行動。 當您已經學習了這些值時,這是最好的策略。 在學習過程中最常用的策略是ε-貪婪策略,它選擇概率為1-ε的最高值動作,以及概率為ε的隨機動作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM