簡體   English   中英

Agent不斷重復同一個動作圈,Q學習

[英]Agent repeats the same action circle non stop, Q learning

如何防止代理不停重復同一個動作圈?

當然,不知何故隨着獎勵系統的變化。 但是,您是否可以遵循或嘗試在代碼中包含一般規則來防止此類問題?


更准確地說,我的實際問題是這個:

我正在嘗試教 ANN 使用 Q-Learning 學習 Doodle Jump。 僅僅幾代之后,代理不斷地在同一個平台/石頭上一遍又一遍地跳躍,不停地。 增加隨機探索時間的長度沒有幫助。

我的獎勵系統如下:

  • 代理人活着時+1
  • +2 當特工在平台上跳躍時
  • -1000 死亡時

一個想法是當智能體與以前一樣到達相同的平台時,給予它負數或至少 0 的獎勵。 但要這樣做,我必須向 ANN 傳遞許多新的輸入參數:代理的 x,y 坐標和上次訪問平台的 x,y 坐標。

此外,ANN 還必須知道一個平台有 4 個塊厚,依此類推。

因此,我確信我剛才提到的這個想法並不能解決問題,相反,我相信 ANN 通常根本學不好,因為有太多無用且難以理解的輸入。

這不是對非常普遍提出的問題的直接答案。


我為我的特定 DoodleJump 示例找到了一種解決方法,可能有人做了類似的事情並需要幫助:

  • 訓練時:讓代理跳上的每個平台都消失,然后在其他地方生成一個新平台。

  • 測試/演示時:您可以禁用新的“消失功能”(使其再次像以前一樣),播放器會玩得很好,並且不會一直跳到同一個平台上。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM