簡體   English   中英

體育館(openAI)環境活動空間取決於實際狀態

[英]Gym (openAI) environment actions space depends from actual state

我正在使用Gym工具包創建自己的環境,並使用keras-rl在代理中使用我的環境。 問題是我的動作空間發生變化,這取決於實際狀態。 例如,我有46種可能的動作,但是在某種狀態下,只有7種可用,而我無法找到一種建模方法。

我已經閱讀了這個問題, 每個步驟后都在打開具有變化的動作空間的環境

但這不能解決我的問題。

Gym Documentation中沒有說明要執行此操作,只有Github存儲庫上的一個問題(仍未解決)。 我不了解代理(keras-rl,dqn代理)如何采取行動,是隨機選擇的嗎? 但是從哪里來的?

有人可以幫我嗎? 有想法嗎?

我已經通過忽略任何無效動作並讓探索機制防止其卡住來處理此問題。 快速簡單,但可能是更好的方法。

我認為更好的選擇是以某種方式將選擇該操作的可能性設置為零,但是我一直在想辦法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM