繁体   English   中英

奖励正在收敛,但强化学习中的动作不正确

[英]Reward is converging but actions are not correct in reinforcement learning

我正在开发一个强化学习代理。

我的奖励结构看起来像

thermal_coefficient = -0.1

        zone_temperature = output[6]

        if zone_temperature < self.temp_sp_min:
            temp_penalty = self.temp_sp_min - zone_temperature
        elif zone_temperature > self.temp_sp_max:
            temp_penalty = zone_temperature - self.temp_sp_max
        else :
            temp_penalty = 0

我的temp_sp_min是 23.7 而temp_sp_max是 24.5。 当我基于 epsilon 贪婪动作选择策略训练代理时,在大约 10000 集之后,我的奖励正在收敛,当我现在测试训练的代理时,代理采取的行动没有意义,这意味着当zone_temperature小于temp_sp_min时正在采取行动,进一步降低 zone_temperature。

我不明白我哪里错了。 有人可以帮我弄这个吗?

谢谢

epsilon-greedy 算法采取不合逻辑的行动是正常的,实际上这些行动应该是探索(以概率 1-epsilon 采取的行动)。

但我认为对于您的问题,这是您需要的上下文 MAB 算法,因为您的奖励取决于上下文/状态(当前温度)。 尝试其他在 LinUCB 或 DQN 等条件下性能更好的算法。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM