标签[adam] - 堆栈内存溢出

Adam optimezer 是否在每一层更新权重？ - Is Adam optimezer updating weight in every layer?

我是神经网络的新手，所以我对 ADAM optimezer 有点困惑。例如，我将 MLP 与这样的架构一起使用：我之前用过SDG，所以想问一下用adam的优化改变权重和SDG更新每一层的权重是一样的吗？在上面的示例中，这是否意味着从输出到隐藏层 2 将有 2 个权重变化，从隐藏层 2 到隐 ...

与相同的 Keras model（使用 Adam 优化器）相比，使用 PyTorch 的错误高出 400% - 400% higher error with PyTorch compared with identical Keras model (with Adam optimizer)

TLDR ： A simple (single hidden-layer) feed-forward Pytorch model trained to predict the function y = sin(X1) + sin(X2) +... sin(X10) substantially ...

AttributeError：模块'keras.optimizers'没有属性'Adam'，我收到这个错误 - AttributeError: module 'keras.optimizers' has no attribute 'Adam' , I am getting this error

我收到此错误 AttributeError: module 'keras.optimizers' has no attribute 'Adam' for the below。 ...

我们如何获得 Adam [Tensorflow] 的有效学习率？ - How do we have access to the effective learning rate of Adam [Tensorflow]?

这个问题是从 Cross Validated 迁移而来的，因为它可以在 Stack Overflow 上回答。 6 小时前迁移。我对亚当的有效学习率很感兴趣。我们知道，Adam 大致由初始/恒定学习率除以过去损失梯度的总和形成（详见此处）。问题的关键在于它具有自适应贡献，它作用于恒定的初始 ...

如何解决 tf.keras.optimizers.Adam(lr=0.001) 命令不起作用的问题？ - How to solve the problem with tf.keras.optimizers.Adam(lr=0.001) command not working?

我在 Google Colab 上工作，当我输入时model.compile(optimizer=tf.keras.optimizers.Adam(lr=1e-6), loss=tf.keras.losses.BinaryCrossentropy()) 它不起作用，我收到以下错误消息Could n ...

'亚当' object 没有属性 '亚当' - 'Adam' object has no attribute 'Adam'

这就是我导入模块的方式但我收到这个错误我尝试使用adam = adam(learning_rate= 0.00001)但它也不起作用 ...

Adam Optimizer 不更新值 - Adam Optimizer not Updating Values

我正在尝试使用 Adam 优化器来获取神经网络之外的某些值。我的技术不起作用，所以我创建了一个简单的例子来看看它是否有效：我的直觉是 b 应该尽可能接近 a 以减少损失。但是我看到 b 的任何值都没有变化，并且 loss 保持完全相同。我在这里缺少什么？谢谢。 ...

节点'training/Adam/gradients/gradients/conv5_block3_3_bn/cond_grad/StatelessIf' - Node 'training/Adam/gradients/gradients/conv5_block3_3_bn/cond_grad/StatelessIf'

img_height,img_width = 32, 32 base_model = ResNet50(weights = 'imagenet', include_top = False, input_shape =(img_height,img_width,3)) x = base_model.o ...

Tensorflow Adam Optimizer state 未更新（get_config） - Tensorflow Adam Optimizer state not updating ( get_config )

I am using optimizer.get_config() to get the final state of my adam optimizer (as in https://stackoverflow.com/a/60077159/607528 ) however .get_conf ...

使用 Netscape 库执行 LDAP 搜索操作并在提供范围时获得最多 10000 个有限结果 (0-*) - Using Netscape library for performing LDAP search operation and getting limited result upto 10000 when range is provided (0-*)

我正在使用 Netscape 库在 microsoft ADS/ADAM Ldap 服务器上执行搜索操作以下是我正在使用的代码段： API 仅返回 10000 条“成员”多值属性记录。服务器上的 MaxValRange 值设置为 50000。有什么方法可以在一次搜索中获得超过 10K 的记录 ...

使用 Adam 优化器在 FashionMNIST 上训练逻辑回归时出错 - Error while training logistic regression on FashionMNIST with Adam optimizer

数据集是 FashionMNIST（784 个输入，10 个输出）。我正在尝试使用 Adam 优化器训练逻辑回归（也对其进行了编码）：列车功能为：每次我收到错误：如果有人可以帮助我，将不胜感激。 ...

什么时候在 Tensorflow Gradient Tape 中应用 Momentum？ - When is Momentum Applied in Tensorflow Gradient Tape?

我一直在玩 tensorflow 中的自动梯度，我有一个问题。如果我们正在更新优化器，比如 ADAM，那么动量算法何时应用于梯度？它是在我们调用 tape.gradient(loss,model.trainable_variables) 还是调用 model.optimizer.apply_gr ...

为什么即使损失正在改善，我的学习率也会降低？ - Why does my learning rate decrease, even when loss is improving?

我正在 Google Colab TPU 上训练我的 Keras model，如下所示 - 在训练期间，我的学习率降低了 0.5 倍，即使损失随着学习率的当前值而改善。正如您在下面的片段中看到的，学习率从 0.0020 下降到 0.0010 到 0.0005。谢谢你的期待:) 请建议我哪里出错 ...

如何在 tensorflow 2.0.0 中使用 Lazy Adam 优化器 - How to use Lazy Adam optimizer in tensorflow 2.0.0

此代码不起作用： tf.contrib有问题我已经尝试过tensorflow_addons.optimizers.LazyAdam() ，但这也不起作用。任何想法如何在 tensorflow 2.0.0 中运行LazyAdam ？ PS：只有Adam在以下方面运作良好： ...

Adam 优化器真的是 RMSprop 加动量吗？如果是，为什么它没有动量参数？ - Is Adam optimizer really RMSprop plus momentum? If yes, why it doesn't have a momentum parameter?

这是 tensorflow 优化器的链接。你可以看到，RMSprop 将动量作为参数，而 Adam 没有这样做。所以我很困惑。 Adam 优化伪装成具有动量的 RMSprop 优化，如下所示：亚当 = RMSprop + 动量但是为什么 RMSprop 确实有动量参数而 Adam 没有呢 ...

模型收敛太快了 5 个纪元？ - 5 epoch too soon for a model to converge?

我正在尝试构建一个 CNN 模型，我有大约 44,000 张图像，6 类，图像大小为 99X99。首先，我使用 SGD 优化器尝试了 ResNet10，我将其设置为 30 个 epochs，学习率为 0.001，收到的最佳模型是 22 个 epoch，但最后 2 个类的准确性不是那么好，然后尝试了 ...

无法使用 GradientTape 重现 model.fit - can't reproduce model.fit with GradientTape

我一直在尝试调查原因（例如通过在训练期间检查权重、梯度和激活）为什么具有 0.001 学习率的 SGD 在训练中起作用，而 Adam 却没有这样做。（请参阅我之前的帖子 [这里]（为什么我的损失（二元交叉熵）收敛于 ~0.6？（任务：自然语言推理） “为什么我的损失（二元交叉熵）收敛于~0.6 ...

在 Keras 中使用 Adam 优化器恢复训练 - Resume training with Adam optimizer in Keras

我的问题很简单，但我在网上找不到明确的答案（到目前为止）。在定义的训练周期数之后，我使用以下方法保存了使用 adam 优化器训练的 keras 模型的权重：当我关闭 jupyter 后恢复训练时，我可以简单地使用：继续训练。由于 Adam 依赖于 epoch 数（例如在学习率衰减 ...

Adam opitmizer中的epsilon参数 - epsilon parameter in Adam opitmizer

使用pyTorch和tensorflow（TF），我在徘徊如何为好奇心实现Adam优化器。而且我不知道我是否是错的，但是在我看来这两种实现方式是不同的，而pyTorch就是https://arxiv.org/pdf/1412.6980.pdf上的原始实现。我的问题来自eps参数。 ...

为什么亚当的get_update仅执行一次？ - Why is Adam's get_update only executed once?

为什么不每次执行get_update（）？ myAdam：这是编译和适合出：为什么不 ...