cost 164 ms
强化学习中连续动作空间的动作掩蔽 - Action masking for continuous action space in reinforcement learning

有没有办法对连续动作空间进行 model 动作屏蔽? 我想用强化学习解决 model 个经济问题。 这些问题往往有连续的动作和state个空格。 此外,state 通常会影响可能的操作,因此允许的操作会逐步变化。 简单示例: 代理人拥有财富(连续状态)并决定支出(连续动作)。 接下来的时期是财富减去 ...


排序:
质量:
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM