[英]Using scipy.optimize.curve_fit with weights
根据文档 ,参数sigma
可用于设置拟合中数据点的权重。 当参数absolute_sigma=True
时,这些“描述”1-sigma错误。
我有一些人为的正常分布噪声数据,这些数据有所不同:
n = 200
x = np.linspace(1, 20, n)
x0, A, alpha = 12, 3, 3
def f(x, x0, A, alpha):
return A * np.exp(-((x-x0)/alpha)**2)
noise_sigma = x/20
noise = np.random.randn(n) * noise_sigma
yexact = f(x, x0, A, alpha)
y = yexact + noise
如果我想使用curve_fit
将嘈杂的y
拟合到f
,那么我应该设置sigma
? 这里的文档不是很具体,但我通常会使用1/noise_sigma**2
作为权重:
p0 = 10, 4, 2
popt, pcov = curve_fit(f, x, y, p0)
popt2, pcov2 = curve_fit(f, x, y, p0, sigma=1/noise_sigma**2, absolute_sigma=True)
但它似乎并没有提高适应性。
此选项仅用于通过协方差矩阵更好地解释拟合不确定性吗? 这两个告诉我的区别是什么?
In [249]: pcov
Out[249]:
array([[ 1.10205238e-02, -3.91494024e-08, 8.81822412e-08],
[ -3.91494024e-08, 1.52660426e-02, -1.05907265e-02],
[ 8.81822412e-08, -1.05907265e-02, 2.20414887e-02]])
In [250]: pcov2
Out[250]:
array([[ 0.26584674, -0.01836064, -0.17867193],
[-0.01836064, 0.27833 , -0.1459469 ],
[-0.17867193, -0.1459469 , 0.38659059]])
至少在scipy版本1.1.0中,参数sigma
应该等于每个参数的错误。 特别是文档说:
1-s sigma应包含ydata中错误的标准偏差值。 在这种情况下,优化函数是chisq = sum((r / sigma)** 2)。
在你的情况下,将是:
curve_fit(f, x, y, p0, sigma=noise_sigma, absolute_sigma=True)
我查看了源代码并验证了当你以这种方式指定sigma时它最小化((f-data)/sigma)**2
。
作为一个方面说明,这是一般你想减少,当你知道错误是什么。 在给定模型f
情况下观察点data
的可能性由下式给出:
L(data|x0,A,alpha) = product over i Gaus(data_i, mean=f(x_i,x0,A,alpha), sigma=sigma_i)
如果您采用负数日志变为(直到不依赖于参数的常数因子):
-log(L) = sum over i (f(x_i,x0,A,alpha)-data_i)**2/(sigma_i**2)
这只是chisquare。
我编写了一个测试程序来验证curve_fit
确实正确地返回了正确的值,并正确指定了sigma:
from __future__ import print_function
import numpy as np
from scipy.optimize import curve_fit, fmin
np.random.seed(0)
def make_chi2(x, data, sigma):
def chi2(args):
x0, A, alpha = args
return np.sum(((f(x,x0,A,alpha)-data)/sigma)**2)
return chi2
n = 200
x = np.linspace(1, 20, n)
x0, A, alpha = 12, 3, 3
def f(x, x0, A, alpha):
return A * np.exp(-((x-x0)/alpha)**2)
noise_sigma = x/20
noise = np.random.randn(n) * noise_sigma
yexact = f(x, x0, A, alpha)
y = yexact + noise
p0 = 10, 4, 2
# curve_fit without parameters (sigma is implicitly equal to one)
popt, pcov = curve_fit(f, x, y, p0)
# curve_fit with wrong sigma specified
popt2, pcov2 = curve_fit(f, x, y, p0, sigma=1/noise_sigma**2, absolute_sigma=True)
# curve_fit with correct sigma
popt3, pcov3 = curve_fit(f, x, y, p0, sigma=noise_sigma, absolute_sigma=True)
chi2 = make_chi2(x,y,noise_sigma)
# double checking that we get the correct answer
xopt = fmin(chi2,p0,xtol=1e-10,ftol=1e-10)
print("popt = %s, chi2 = %.2f" % (popt,chi2(popt)))
print("popt2 = %s, chi2 = %.2f" % (popt2, chi2(popt2)))
print("popt3 = %s, chi2 = %.2f" % (popt3, chi2(popt3)))
print("xopt = %s, chi2 = %.2f" % (xopt, chi2(xopt)))
哪个输出:
popt = [ 11.93617403 3.30528488 2.86314641], chi2 = 200.66
popt2 = [ 11.94169083 3.30372955 2.86207253], chi2 = 200.64
popt3 = [ 11.93128545 3.333727 2.81403324], chi2 = 200.44
xopt = [ 11.93128603 3.33373094 2.81402741], chi2 = 200.44
正如您所看到的,当您将sigma=sigma
指定为curve_fit的参数时,chi2确实已正确最小化。
至于为什么改进不是“更好”,我不太确定。 我唯一的猜测是,如果没有指定sigma值,你会隐含地假设它们是相等的,并且在拟合重要的数据部分(峰值)上,误差“近似”相等。
为了回答你的第二个问题, 没有 sigma选项不仅用于改变协方差矩阵的输出,它实际上改变了最小化的内容。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.