繁体 English 中英

通过强化学习进行回归

[英]Regression through reinforcement learning

原文 2018-08-09 19:00:53 2 1 python/ neural-network/ reinforcement-learning

我正在尝试建立一个可以使用RL打口袋坦克的特工。 我现在面临的问题是如何训练神经网络以输出正确的功率和角度。 因此，而不是动作分类。 我想要回归。

1 个解决方案

为了输出正确的功率和角度，您需要做的就是进入神经网络体系结构并更改最后一层的激活。

在您的问题中，您指出您当前正在使用动作分类输出，因此很可能是softmax输出层。 我们可以在这里做两件事：

如果功率和角度有严格的约束，例如角度不能大于360°，或者功率不能超过700 kW，我们可以将softmax输出更改为TanH输出（双曲正切），然后乘以功率/角度。 因为tanh的输出在-1和1之间，所以将产生“缩放效果”。将tanh的输出乘以功率/角度的约束可以确保始终满足约束，并且输出是正确的功率/角度。
如果您的问题没有任何限制。 我们可以简单地一起删除softmax输出。 删除softmax可以使输出不再被限制在0和1之间。神经网络的最后一层将简单地充当线性映射，即y = Wx + b。

我希望这有帮助！

编辑：在两种情况下，训练您的神经网络的奖励功能都可能只是MSE损失。 示例：损失=（real_power-估计功率）^ 2 +（real_angle-估计角度）^ 2

强化学习，钟摆蟒蛇

[英]Reinforcement learning, pendulum python

强化学习中的负面奖励

[英]Negative reward in reinforcement learning

强化学习中的时间步长

[英]Time step in reinforcement learning

简单的界面用于强化学习

[英]Simple interface for reinforcement learning

监督数据集上的强化学习

[英]Reinforcement Learning on a Supervised Dataset

强化学习 - 动作数量

[英]reinforcement learning - number of actions

用Keras模型进行强化学习

[英]Reinforcement Learning with Keras model

联合强化学习

[英]Federated reinforcement learning

基础强化学习中的折扣奖励

[英]Discounted rewards in basic reinforcement learning

没有最终状态的强化学习？

[英]Reinforcement Learning without a final state?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 强化学习，钟摆蟒蛇强化学习中的负面奖励强化学习中的时间步长简单的界面用于强化学习监督数据集上的强化学习强化学习 - 动作数量用Keras模型进行强化学习联合强化学习基础强化学习中的折扣奖励没有最终状态的强化学习？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM