[英]What is the best way to model an environment to force an agent to select `x out of n` choices?
我有一個 RL 問題,我希望代理從大小為 n 的數組中選擇 x。
即如果我有[0, 1, 2, 3, 4, 5]
那么n = 6
並且如果x = 3
一個有效的動作可能是
[2, 3, 5]
。
現在我嘗試的是有n
分數:輸出n
連續數字,並選擇x
最高的。 這工作得很好。
我嘗試從多離散操作中迭代替換重復項。 我們的x
值可以是0 to n-1
之間的任何值。
是否還有其他一些我缺少的最佳行動空間會迫使代理人做出獨特的選擇?
非常感謝您提前提供寶貴的見解和提示! 我很樂意嘗試所有!
由於強化學習主要是關於與環境的交互,您可以這樣處理:
您的代理開始選擇操作。 選擇第一個動作后,您可以通過刪除最后一個選擇(使用臨時動作列表)來更新它可能的選擇,或者您可以更新所選動作的值(給它負獎勵或懲罰它)。 我認為這可以解決您的問題。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.