繁体   English   中英

将函数应用于每个组:TypeError: unhashable type: 'numpy.ndarray'

[英]Apply Function to every group: TypeError: unhashable type: 'numpy.ndarray'

我正在尝试为每个组做一个曲线拟合,并为每个组获得 c、a、b 的结果。

我是这样试的:

x=df.T.iloc[1]
y=df.T.iloc[2]

def logifunc(x,c,a,b):
    return c / (1 + (a) * np.exp(-b*(x)))

df.groupby('Seriennummer').apply(curve_fit(logifunc, x, y, p0=[110,400,-2]))

但我收到错误:

类型错误:不可散列类型:'numpy.ndarray'

这是我的 df 的一部分,有一百万行:

    Seriennummer    mrwSmpVWi   mrwSmpP
1915    701091.0    1.8   4.0
1916    701085.0    2.0   2.0
1917    701089.0    1.7   0.0
1918    701087.0    1.8   3.0
1919    701090.0    1.8   0.0
1920    701088.0    2.4   0.0
1921    701086.0    2.7   5.0
1922    701092.0    1.1   0.0
1923    701085.0    2.0   2.0
1924    701089.0    2.0   10.0
1925    701091.0    0.8   0.0
1926    701087.0    2.3   10.0
1927    701090.0    1.6   1.0
1928    701092.0    2.2   6.0
1929    701086.0    1.5   0.0
1930    701088.0    2.1   3.0

你的代码中有一个奇怪的地方是:

  • 尽管您按Seriennummer执行分组,
  • 然后,对于每个组,您尝试对来自完整DataFrame 的数据执行曲线拟合。

为了获得正确的结果,您应该只对当前组执行曲线拟合。 就像是:

import scipy.optimize as opt

result = df.groupby('Seriennummer').apply(lambda grp:
    opt.curve_fit(logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2]))

我的lambda函数类似于其他答案中提到的包装器,其他参数在此函数中进行了硬编码。

由于您的数据样本每组仅包含 2 行,因此我准备了自己的 DataFrame:

      Seriennummer  mrwSmpVWi  mrwSmpP
1915      701091.0        1.8      4.0
1916      701091.0        1.6      3.4
1917      701091.0        1.4      3.0
1918      701091.0        1.0      1.5
1919      701091.0        0.8      0.0
1920      701085.0        2.0      2.0
1921      701085.0        2.5      3.0
1922      701085.0        3.0      3.5
1923      701085.0        3.6      4.2

并运行上面的代码,没有错误。

为了以易于评估的方式打印结果,我运行:

for k, v in result.iteritems():
    print(f'Group {k:}:\n{v[0]}\n{v[1]}')

得到:

Group 701085.0:
[ 4.66854588 24.45419288  1.47315989]
[[ 3.43664761e-01 -1.05587500e+01 -2.65359878e-01]
 [-1.05587500e+01  4.60108288e+02  1.03214386e+01]
 [-2.65359878e-01  1.03214386e+01  2.40785819e-01]]
Group 701091.0:
[  3.89988734 617.72482118   5.54935645]
[[ 3.42006760e-01 -6.02519226e+02 -1.11651569e+00]
 [-6.02519226e+02  2.43770095e+06  3.83083902e+03]
 [-1.11651569e+00  3.83083902e+03  6.28930797e+00]]

首先在我的数据上重复上述过程,然后在您自己的数据上重复上述过程。

按照截至 11:03Z 的评论进行编辑

阅读scipy.optimize.curve_fit的文档。 结果的描述(每次调用)包含:

  • popt - 参数(拟合曲线的)的最佳值,
  • pcov2 - popt 的估计协方差。

如果你想要为每个组POPT并不在乎pcov2,那么lambda函数应该从(2元),结果只返回的第一个元素:

result = df.groupby('Seriennummer').apply(lambda grp: opt.curve_fit(
    logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2])[0])

(注意[0]在末尾添加)。

一些注意事项:

  1. 请注意,您传递给curve_fit GroupBy对象的参数实际上是调用curve_fit函数的结果, curve_fit函数返回一个ndarray GroupBy.apply的第一个参数是一个需要返回熊猫对象(DataFrame,标量系列)的可调用对象,这就是您收到该错误的原因。

  2. 我不确定您要做什么,但我认为它会根据您编写的函数为每个组制作一条曲线。

如果是这种情况,我建议您将该功能包装在另一个函数中并将其传递给 apply 方法。

def wrapper(df-of-group-by, *args):
    # somehow work with your given DataFrame to achieve what you are looking for
    # you can also print what-ever and export images
    # the important thing is that you return a DataFrame back

# usage:
ohlala.groupby('Seriennummer').apply(wrapper, YOUR-ARGS)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM