[英]Reinforcement learning actor predicting same actions during initial training
我有一個帶有 lstm 的強化學習 Actor Critic model。 在初始訓練期間,它為所有狀態提供相同的動作值。
AI / RL專家可以幫忙告訴我這是否是訓練期間的正常行為嗎? 如果我的 state_dimension = 50 和 action_dimension = 3,你也可以幫我知道 lstm 和線性層的理想大小應該是多少。
提前致謝
這可能是由許多原因引起的:
1 - 檢查權重初始化
2 - 檢查 model 進行推理的接口,如果沒有其他因素阻止它做出除了激活該特定神經元之外的動作選擇
3 - 檢查您的獎勵 function。 避免太大的負面獎勵。 此外,如果采取相同的行動並不是避免負面獎勵的明顯方法。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.