繁体 English 中英

为什么使用非线性函数逼近器随机化强化学习模型的样本会减少方差？

[英]Why does randomizing samples of reinforcement learning model with a non-linear function approximator reduce variance?

原文 2020-01-28 06:24:16 5 1 deep-learning/ reinforcement-learning/ nonlinear-functions/ dqn

我已经阅读了 DQN 论文。

在阅读 DQN 论文时，我发现随机选择和学习样本使用非线性函数逼近器减少了 RL 的散度。

如果是这样，当输入数据强相关时，为什么使用非线性函数逼近器学习 RL 会发散？

1 个解决方案

我相信An Analysis Of Temporal-Difference Learning with Function Approximation 的第X节（从第 687 页开始）为您的问题提供了答案。 综上所述，存在应用TD(0)Bellman算子后平均预测误差实际上增加的非线性函数； 因此，政策最终会出现分歧。 这通常是深度神经网络的情况，因为它们本质上是非线性的，并且从优化的角度来看往往表现不佳。

或者，对独立同分布( iid ) 数据进行训练可以计算梯度的无偏估计，这是一阶优化算法（如随机梯度下降 (SGD)）收敛到损失函数的局部最小值所必需的。 这就是为什么 DQN 从大型重放内存中随机采样小批量，然后使用RMSProp （SGD 的高级形式）减少损失的原因。

为什么ReLU是非线性激活函数？

[英]Why is ReLU a non-linear activation function?

用Keras模型进行强化学习

[英]Reinforcement Learning with Keras model

线性和非线性变换

[英]Linear and Non-linear transformation

强化学习，为什么表现崩溃了？

[英]Reinforcement learning, why the performance collapsed?

为什么 RL 被称为“强化”学习？

[英]Why is RL called 'reinforcement' learning?

具有非线性激活 function（比如 ReLU）的神经网络可以用于线性分类任务吗？

[英]Can a neural network having non-linear activation function (say ReLU) be used for linear classification task?

用大量图像训练强化学习模型

[英]Train a reinforcement learning model with a large amount of images

强化学习文献中的“软”是什么意思？

[英]What does "soft" in reinforcement learning literature mean?

为什么要将马尔可夫属性引入强化学习？

[英]Why introduce Markov property to reinforcement learning?

什么时候需要深层强化学习而不是q学习？

[英]Why and when is deep reinforcement learning needed instead of q-learning?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 为什么ReLU是非线性激活函数？用Keras模型进行强化学习线性和非线性变换强化学习，为什么表现崩溃了？为什么 RL 被称为“强化”学习？具有非线性激活 function（比如 ReLU）的神经网络可以用于线性分类任务吗？用大量图像训练强化学习模型强化学习文献中的“软”是什么意思？为什么要将马尔可夫属性引入强化学习？什么时候需要深层强化学习而不是q学习？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM