繁体   English   中英

如何在scikit-learn中提高预测的准确性

[英]How to improve the accuracy of prediction in scikit-learn

我想基于3个特征1个目标来预测参数。 这是我的输入文件(data.csv):

feature.1   feature.2   feature.3   target
    1           1          1        0.0625
    0.5         0.5        0.5      0.125
    0.25        0.25       0.25     0.25
    0.125       0.125      0.125    0.5
    0.0625      0.0625     0.0625   1

这是我的代码:

import pandas as pd
from sklearn.model_selection import train_test_split
from collections import *
from sklearn.linear_model import LinearRegression

features = pd.read_csv('data.csv')

features.head()
features_name = ['feature.1' , 'feature.2' , 'feature.3']
target_name = ['target']

X = features[features_name]
y = features[target_name]

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.1, random_state = 42)

linear_regression_model = LinearRegression()
linear_regression_model.fit(X_train,y_train)

#Here is where I want to predict the target value for these inputs for 3 features
new_data  = OrderedDict([('feature.1',0.375) ,('feature.2',0.375),('feature.3',0.375) ])

new_data = pd.Series(new_data).values.reshape(1,-1)
ss = linear_regression_model.predict(new_data)
print (ss)

根据趋势,如果我为所有功能输入0.375,则期望得到0.1875左右的值 但是代码预言了这一点:

[[0.44203368]]

这是不正确的。 我不知道问题出在哪里。 有人知道我该如何解决吗?

谢谢

您的数据不是线性的。 由于功能相同,我只绘制了一个尺寸:

在此处输入图片说明

用LinearRegression模型逼近非线性函数会产生糟糕的结果,就像您遇到的那样。 您可以尝试为更好的拟合函数建模并使用scipy拟合其参数: https ://docs.scipy.org/doc/scipy/reference/生成/scipy.optimize.curve_fit.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM