繁体   English   中英

如何根据这些数据创建函数?

[英]How can I create a function from this data?

我有一个表格形式的数据集:

Score   Percentile
 381         1
 382         2
 383         2
      ...
 569        98
 570        99

完整的表格在此处作为 Google 电子表格

目前,我正在计算一个分数,然后对该数据集(表)进行查找以找到相应的百分位排名。

是否可以创建一个函数来使用公式而不是在表格中查找给定分数的相应百分位排名?

如果没有提供有关该数据背后的过程的信息,则无法重新创建生成给定数据表的函数。

话虽如此,我们可以做一些推测。

由于它是一个“百分位数”函数,它可能代表某种概率分布的累积值。 一个非常常见的概率分布是正态分布,其“累积”对应物(即其积分)是所谓的“误差函数”(“ erf ”)。

事实上,您的表格数据看起来很像平均值为 473.09 的变量的误差函数:

在此处输入图片说明

你的数据集:橙色; 拟合误差函数( erf ):蓝色

然而,该协议并不完美,这可能是由于三个原因:

  1. 我用来生成误差函数参数的拟合过程没有使用正确的约束(因为我不知道我在建模什么!)
  2. 您的数据集不代表精确的正态分布,而是代表其基础分布是正态分布的真实世界数据。 偏离模型的样本数据的特征将被完全忽略。
  3. 底层分布根本不是正态分布,它的积分只是偶然看起来像误差函数。

我真的没有办法告诉你!

如果你想使用这个函数,这是它的定义:

import numpy as np
from scipy.special import erf
def fitted_erf(x):
    c = 473.09090474
    w =  37.04826334
    return 50+50*erf((x-c)/(w*np.sqrt(2)))

测试:

In [2]: fitted_erf(439) # 17 from the table
Out[2]: 17.874052406601457

In [3]: fitted_erf(457) # 34 from the table
Out[3]: 33.20270318344252

In [4]: fitted_erf(474) # 51 from the table
Out[4]: 50.97883169390196

In [5]: fitted_erf(502) # 79 from the table
Out[5]: 78.23955071273468

但是,我强烈建议您检查在不了解您的数据源的情况下制作的拟合函数是否适合您的任务。


聚苯乙烯

如果您有兴趣,这是用于获取参数的代码:

import numpy as np
from scipy.special import erf
from scipy.optimize import curve_fit

tab=np.genfromtxt('table.csv', delimiter=',', skip_header=1)
# using a 'table.csv' file generated by Google Spreadsheets
x = tab[:,0]
y = tab[:,1]

def parametric_erf(x, c, w):
    return 50+50*erf((x-c)/(w*np.sqrt(2)))

pars, j = curve_fit(parametric_erf, x, y, p0=[475,10])

print(pars)
# outputs [  473.09090474,   37.04826334]

并生成情节

import matplotlib.pyplot as plt

plt.plot(x,parametric_erf(x,*pars))
plt.plot(x,y)
plt.show()

您的问题很模糊,但似乎您所做的任何计算都以 381-570 范围内的数字结束,这是正确的。 你有一个给出这个数字的多行计算? 我猜您在代码中的很多地方都重复了这一点,这就是您想要对其进行处理的原因?

对于任何计算,您都可以将其包装在一个函数中。 例如:

answer = variable_1 * variable_2 + variable_3

可以写成:

def calculate(v1, v2, v3):
    ''' calculate the result from the inputs
    '''
    return v1 * v2 + v3

answer = calculate(variable_1, variable_2, variable_3)

如果你想要一个明确的答案,那么只需发布你的计算,我可以把它变成一个函数给你

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM