cost 344 ms
在 PyTorch 中快速计算模型参数的 Hessian 矩阵 - Fast way to calculate Hessian matrix of model parameters in PyTorch

我想在 PyTorch 中计算损失 wrt 模型参数的 Hessian 矩阵,但是使用torch.autograd.functional.hessian对我来说不是一个选项,因为它会重新计算模型输出和我已经从之前的调用中获得的损失。 我目前的实现如下:import torch import time ...

计算 Flax NN 输出到输入的 Hessian 向量积 - Calculating the Hessian Vector Product of a Flax NN output wrt to the inputs

我试图获得输出的二阶导数 wrt 使用 Flax 构建的神经网络的输入。 网络结构如下: 我可以通过在 grad 上使用 vmap 来获得单导数: 但是,当我再次尝试这样做以获得二阶导数时: 我收到以下错误: 我尝试使用 autodiff 食谱中的 hvp 定义,但参数是函数的输入, ...

如何使用 autograd.grad 计算 PyTorch 中的参数损失的 Hessian - How to compute Hessian of the loss w.r.t. the parameters in PyTorch using autograd.grad

我知道在 pytorch 中有很多关于“计算 Hessian”的内容,但据我所知,我没有找到任何对我有用的东西。 因此,尽量准确地说,我想要的 Hessian 是相对于网络参数的损失梯度的雅可比行列式。 也称为关于参数的二阶导数矩阵。 我发现了一些以直观方式工作的代码,虽然不应该很快。 很明显,它 ...

如何在pytorch中计算网络中所有参数的hessian矩阵? - How to compute hessian matrix for all parameters in a network in pytorch?

假设向量\\theta是神经网络中的所有参数,我想知道如何在pytorch 中计算\\theta hessian 矩阵。 假设网络如下: 我知道可以通过调用torch.autograd.grad()两次来计算二阶导数,但是 pytorch 中的参数是由net.parameters()组织的,我 ...

nlm 每次迭代的 function 评估次数? - nlm number of function evaluations per iteration?

我使用 nlm 来最大化 R 中的可能性。 如果任务可能花费太长时间,我想预测可能性评估的数量并中止。 nlm 返回“迭代”的次数(通常为 10-20),我认为每次迭代都涉及对 Hessian 的一次数值评估。 每次迭代的时间(Hessian?)取决于参数的数量。 所以我想知道:nlm 中每次迭 ...

使用 mle2 进行有误差的参数估计并进行预测 - Using mle2 for parameter estimates with error and predict

我正在使用mle2来估计非线性 model 的参数,我想要估计参数估计周围的误差(标准误差)。 同样,我想使用 model 然后使用 newdata 进行预测,并且在此过程中的几个步骤中我遇到了问题(错误)。 这是数据: 首先,我必须为我的非线性 model 设置几个关于动物在温度方面的表现的固定参 ...

Python 逻辑回归/Hessian。 得到除以零误差和奇异矩阵误差 - Python Logistic Regression / Hessian. Getting a divide by zero error and a singular matrix error

代码: 如果我循环超过 28 次,我的成本 function 的“总和”部分会出现除以 0 的问题,而且我还会收到一个错误,指出矩阵不能反转,因为它是奇异的。 不知道出了什么问题,遵循我的教授给出的确切算法。 该数据集是一个包含 80 个学生条目的列表,每个条目有两个考试分数,以及该学生是否被大学录 ...

为什么DFP和BFGS之类的准牛顿方法在病态问题上即使是二次方程也具有较差的性能 - Why do quasi newton methods such as DFP and BFGS have poor performance on ill-conditionned problem, even if quadratic

我在文学界一直读到,诸如DFP和BFGS之类的准牛顿法在处理条件不佳的问题上的性能较差,但我不明白其原因。 我一直试图在条件不佳的二次问题上使用这些方法,并且该问题不会在p + 1迭代中收敛(这是二次问题的准牛顿方法属性之一),但要多一些。 这是为什么 ? 谢谢您的帮助。 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM