奖励正在收敛，但强化学习中的动作不正确

Question

我正在开发一个强化学习代理。

我的奖励结构看起来像

thermal_coefficient = -0.1

        zone_temperature = output[6]

        if zone_temperature < self.temp_sp_min:
            temp_penalty = self.temp_sp_min - zone_temperature
        elif zone_temperature > self.temp_sp_max:
            temp_penalty = zone_temperature - self.temp_sp_max
        else :
            temp_penalty = 0

我的temp_sp_min是 23.7 而temp_sp_max是 24.5。 当我基于 epsilon 贪婪动作选择策略训练代理时，在大约 10000 集之后，我的奖励正在收敛，当我现在测试训练的代理时，代理采取的行动没有意义，这意味着当zone_temperature小于temp_sp_min时正在采取行动，进一步降低 zone_temperature。

我不明白我哪里错了。 有人可以帮我弄这个吗？

谢谢

Answer 1

epsilon-greedy 算法采取不合逻辑的行动是正常的，实际上这些行动应该是探索（以概率 1-epsilon 采取的行动）。

但我认为对于您的问题，这是您需要的上下文 MAB 算法，因为您的奖励取决于上下文/状态（当前温度）。 尝试其他在 LinUCB 或 DQN 等条件下性能更好的算法。

奖励正在收敛，但强化学习中的动作不正确

问题描述

1 个解决方案

解决方案1
0 2019-10-03 09:45:49

奖励正在收敛，但强化学习中的动作不正确

问题描述

1 个解决方案

解决方案1 0 2019-10-03 09:45:49

解决方案1
0 2019-10-03 09:45:49