[英]Agent repeats the same action circle non stop, Q learning
如何防止代理不停重復同一個動作圈?
當然,不知何故隨着獎勵系統的變化。 但是,您是否可以遵循或嘗試在代碼中包含一般規則來防止此類問題?
更准確地說,我的實際問題是這個:
我正在嘗試教 ANN 使用 Q-Learning 學習 Doodle Jump。 僅僅幾代之后,代理不斷地在同一個平台/石頭上一遍又一遍地跳躍,不停地。 增加隨機探索時間的長度沒有幫助。
我的獎勵系統如下:
一個想法是當智能體與以前一樣到達相同的平台時,給予它負數或至少 0 的獎勵。 但要這樣做,我必須向 ANN 傳遞許多新的輸入參數:代理的 x,y 坐標和上次訪問平台的 x,y 坐標。
此外,ANN 還必須知道一個平台有 4 個塊厚,依此類推。
因此,我確信我剛才提到的這個想法並不能解決問題,相反,我相信 ANN 通常根本學不好,因為有太多無用且難以理解的輸入。
這不是對非常普遍提出的問題的直接答案。
我為我的特定 DoodleJump 示例找到了一種解決方法,可能有人做了類似的事情並需要幫助:
訓練時:讓代理跳上的每個平台都消失,然后在其他地方生成一個新平台。
測試/演示時:您可以禁用新的“消失功能”(使其再次像以前一樣),播放器會玩得很好,並且不會一直跳到同一個平台上。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.