![](/img/trans.png)
[英]Lambda function - TypeError: unhashable type: 'numpy.ndarray'
[英]Apply Function to every group: TypeError: unhashable type: 'numpy.ndarray'
我正在尝试为每个组做一个曲线拟合,并为每个组获得 c、a、b 的结果。
我是这样试的:
x=df.T.iloc[1]
y=df.T.iloc[2]
def logifunc(x,c,a,b):
return c / (1 + (a) * np.exp(-b*(x)))
df.groupby('Seriennummer').apply(curve_fit(logifunc, x, y, p0=[110,400,-2]))
但我收到错误:
类型错误:不可散列类型:'numpy.ndarray'
这是我的 df 的一部分,有一百万行:
Seriennummer mrwSmpVWi mrwSmpP
1915 701091.0 1.8 4.0
1916 701085.0 2.0 2.0
1917 701089.0 1.7 0.0
1918 701087.0 1.8 3.0
1919 701090.0 1.8 0.0
1920 701088.0 2.4 0.0
1921 701086.0 2.7 5.0
1922 701092.0 1.1 0.0
1923 701085.0 2.0 2.0
1924 701089.0 2.0 10.0
1925 701091.0 0.8 0.0
1926 701087.0 2.3 10.0
1927 701090.0 1.6 1.0
1928 701092.0 2.2 6.0
1929 701086.0 1.5 0.0
1930 701088.0 2.1 3.0
你的代码中有一个奇怪的地方是:
为了获得正确的结果,您应该只对当前组执行曲线拟合。 就像是:
import scipy.optimize as opt
result = df.groupby('Seriennummer').apply(lambda grp:
opt.curve_fit(logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2]))
我的lambda函数类似于其他答案中提到的包装器,其他参数在此函数中进行了硬编码。
由于您的数据样本每组仅包含 2 行,因此我准备了自己的 DataFrame:
Seriennummer mrwSmpVWi mrwSmpP
1915 701091.0 1.8 4.0
1916 701091.0 1.6 3.4
1917 701091.0 1.4 3.0
1918 701091.0 1.0 1.5
1919 701091.0 0.8 0.0
1920 701085.0 2.0 2.0
1921 701085.0 2.5 3.0
1922 701085.0 3.0 3.5
1923 701085.0 3.6 4.2
并运行上面的代码,没有错误。
为了以易于评估的方式打印结果,我运行:
for k, v in result.iteritems():
print(f'Group {k:}:\n{v[0]}\n{v[1]}')
得到:
Group 701085.0:
[ 4.66854588 24.45419288 1.47315989]
[[ 3.43664761e-01 -1.05587500e+01 -2.65359878e-01]
[-1.05587500e+01 4.60108288e+02 1.03214386e+01]
[-2.65359878e-01 1.03214386e+01 2.40785819e-01]]
Group 701091.0:
[ 3.89988734 617.72482118 5.54935645]
[[ 3.42006760e-01 -6.02519226e+02 -1.11651569e+00]
[-6.02519226e+02 2.43770095e+06 3.83083902e+03]
[-1.11651569e+00 3.83083902e+03 6.28930797e+00]]
首先在我的数据上重复上述过程,然后在您自己的数据上重复上述过程。
阅读scipy.optimize.curve_fit的文档。 结果的描述(每次调用)包含:
如果你只想要为每个组POPT并不在乎pcov2,那么lambda函数应该从(2元),结果只返回的第一个元素:
result = df.groupby('Seriennummer').apply(lambda grp: opt.curve_fit(
logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2])[0])
(注意[0]
在末尾添加)。
一些注意事项:
请注意,您传递给curve_fit
GroupBy
对象的参数实际上是调用curve_fit
函数的结果, curve_fit
函数返回一个ndarray
。 GroupBy.apply
的第一个参数是一个需要返回熊猫对象(DataFrame,标量系列)的可调用对象,这就是您收到该错误的原因。
我不确定您要做什么,但我认为它会根据您编写的函数为每个组制作一条曲线。
如果是这种情况,我建议您将该功能包装在另一个函数中并将其传递给 apply 方法。
def wrapper(df-of-group-by, *args):
# somehow work with your given DataFrame to achieve what you are looking for
# you can also print what-ever and export images
# the important thing is that you return a DataFrame back
# usage:
ohlala.groupby('Seriennummer').apply(wrapper, YOUR-ARGS)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.