[英]Limit on Action Change in reinforcement learning
我想使用DDPG在虛擬環境中建造一艘自主艦 。
但是,問題在於操作的動作空間為(-180',+180'),DDPG可以選擇(t-1)的-180'和(t + 1)的+180',在現實世界中這是不可能的。 (基本上,您不能快速旋轉方向盤。)
我認為可能的解決方案是這樣。
我想我找到了解決方案。
(來源: https : //stats.stackexchange.com/questions/378008/how-to-handle-a-changing-action-space-in-reinforcement-learning/378025#378025? newreg = 09ef385b87a54f27b5011f983dbf0270 )
https://stats.stackexchange.com/questions/328835/enforcing-game-rules-in-alpha-go-zero
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.