簡體   English   中英

強化學習中行動限制的限制

[英]Limit on Action Change in reinforcement learning

我想使用DDPG在虛擬環境中建造一艘自主艦

但是,問題在於操作的動作空間為(-180',+180'),DDPG可以選擇(t-1)的-180'和(t + 1)的+180',在現實世界中這是不可能的。 (基本上,您不能快速旋轉方向盤。)


我認為可能的解決方案是這樣。

  1. 設置最大轉向率(例如,每步10')

  2. 如果采取的動作超出可用動作范圍(current_steeringWheel_angle-10',current_steeringWheel_angle + 10'),則將采取的動作更改為可用動作范圍內的最終值

  3. 在虛擬環境中采取已更改的操作。


  4. (第一個選項)使用更改后的操作更新DDPG。
    (第二個選項)使用最初執行的操作更新DDPG。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM