[英]Reward is converging but actions are not correct in reinforcement learning
我正在开发一个强化学习代理。
我的奖励结构看起来像
thermal_coefficient = -0.1
zone_temperature = output[6]
if zone_temperature < self.temp_sp_min:
temp_penalty = self.temp_sp_min - zone_temperature
elif zone_temperature > self.temp_sp_max:
temp_penalty = zone_temperature - self.temp_sp_max
else :
temp_penalty = 0
我的temp_sp_min
是 23.7 而temp_sp_max
是 24.5。 当我基于 epsilon 贪婪动作选择策略训练代理时,在大约 10000 集之后,我的奖励正在收敛,当我现在测试训练的代理时,代理采取的行动没有意义,这意味着当zone_temperature
小于temp_sp_min
时正在采取行动,进一步降低 zone_temperature。
我不明白我哪里错了。 有人可以帮我弄这个吗?
谢谢
epsilon-greedy 算法采取不合逻辑的行动是正常的,实际上这些行动应该是探索(以概率 1-epsilon 采取的行动)。
但我认为对于您的问题,这是您需要的上下文 MAB 算法,因为您的奖励取决于上下文/状态(当前温度)。 尝试其他在 LinUCB 或 DQN 等条件下性能更好的算法。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.