簡體 English 中英

Agent不斷重復同一個動作圈，Q學習

[英]Agent repeats the same action circle non stop, Q learning

原文 2020-04-22 14:02:22 9 1 python/ tensorflow/ reinforcement-learning/ q-learning

如何防止代理不停重復同一個動作圈？

當然，不知何故隨着獎勵系統的變化。 但是，您是否可以遵循或嘗試在代碼中包含一般規則來防止此類問題？

更准確地說，我的實際問題是這個：

我正在嘗試教 ANN 使用 Q-Learning 學習 Doodle Jump。 僅僅幾代之后，代理不斷地在同一個平台/石頭上一遍又一遍地跳躍，不停地。 增加隨機探索時間的長度沒有幫助。

我的獎勵系統如下：

代理人活着時+1
+2 當特工在平台上跳躍時
-1000 死亡時

一個想法是當智能體與以前一樣到達相同的平台時，給予它負數或至少 0 的獎勵。 但要這樣做，我必須向 ANN 傳遞許多新的輸入參數：代理的 x,y 坐標和上次訪問平台的 x,y 坐標。

此外，ANN 還必須知道一個平台有 4 個塊厚，依此類推。

因此，我確信我剛才提到的這個想法並不能解決問題，相反，我相信 ANN 通常根本學不好，因為有太多無用且難以理解的輸入。

1 個解決方案

這不是對非常普遍提出的問題的直接答案。

我為我的特定 DoodleJump 示例找到了一種解決方法，可能有人做了類似的事情並需要幫助：

訓練時：讓代理跳上的每個平台都消失，然后在其他地方生成一個新平台。
測試/演示時：您可以禁用新的“消失功能”（使其再次像以前一樣），播放器會玩得很好，並且不會一直跳到同一個平台上。

q 代理正在學習不采取任何行動

[英]q agent is learning not to take any actions

Python pyglet 不斷重復播放音頻

[英]Python pyglet repeats playing the audio non stop

增強智能體訓練 Q Learning Taxi V3

[英]Enhancement of Agent Training Q Learning Taxi V3

Python命令在命令中重復相同的數字（我正在學習python）

[英]Python command repeats same number in command(im learning python)

假設重復相同的值

[英]hypothesis repeats the same values

試圖停止匹配生成器中的重復

[英]Trying to stop repeats in matchup generator

Q-learning模型沒有改進

[英]Q-learning model not improving

蛇游戲的深度Q學習

[英]Deep Q Learning For Snake Game

深度Q學習修改

[英]Deep Q-learning modification

while循環應停止時重復一次

[英]while loop repeats once when it should stop

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 q 代理正在學習不采取任何行動 Python pyglet 不斷重復播放音頻增強智能體訓練 Q Learning Taxi V3 Python命令在命令中重復相同的數字（我正在學習python）假設重復相同的值試圖停止匹配生成器中的重復 Q-learning模型沒有改進蛇游戲的深度Q學習深度Q學習修改 while循環應停止時重復一次

相關標簽

Agent不斷重復同一個動作圈，Q學習

問題描述

1 個解決方案

解決方案1
0 已采納 2020-04-25 15:27:56

Agent不斷重復同一個動作圈，Q學習

問題描述

1 個解決方案

解決方案1 0 已采納 2020-04-25 15:27:56

解決方案1
0 已采納 2020-04-25 15:27:56