繁体   English   中英

强化学习 DQN 环境结构

[英]Reinforcement learning DQN environment structure

我想知道如何最好地将我的 DQN 代理对其环境所做的更改反馈给它自己。

我有一个电池 model ,代理可以观察到 17 个步骤和 5 个特征的时间序列预测。 然后它决定是充电还是放电。

我想将其当前的 state 充电(空、半满、满等)包含在其观察空间中(即我正在输入的 (17,5) 数据帧内的某个位置)。

我有几个选项,我可以将一整列设置为电荷值的 state,整行,或者我可以将整个 dataframe 展平并将一个值设置为电荷值的 Z9ED39E2EA931586B6A985A6942EF5。

这些是不明智的吗? 将整个列设置为单个值对我来说似乎有点初级,但它真的会影响性能吗? 当我计划使用 conv 或 lstm 层时,我对将整个事物展平持谨慎态度(尽管当前的 model 只是密集层)。

您不想添加在 state 表示中重复的不必要的功能,因为它可能会妨碍您稍后将 model 扩展到更大的输入大小(如果这是您的计划)。

此外,您希望在 state 表示中提供多少信息的决定主要是实验性的。 最好的开始方法是只给出一个值作为电池 state。 但是,如果 model 不收敛,那么也许您可以尝试您在问题中提到的其他选项。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM