簡體   English   中英

線性回歸問題 model

[英]Problems with linear regression model

我使用來自籃球參考的數據創建了這個 DataFrame,我得到了每個特征的平均值。 DataFrame 數據無論我使用哪一列來訓練我的線性 Model,我的 R2 分數都接近 0,並且預測結果很糟糕。

import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score
import math


percent=math.floor(len(df)*0.80)
X=df['Mean MP'].to_numpy()
Y=df['BPM'].to_numpy()
Y=Y.reshape(Y.shape[0], )
X=StandardScaler().fit_transform(X)

X_train=X[:percent]
Y_train=Y[:percent]
X_test=X[percent:]
Y_test=Y[percent:]

model=linear_model.LinearRegression()
model.fit(X_train,Y_train)

a=r2_score(Y_test,model.predict(X_test))
a=-0.07

我認為這是我創建或使用 DataFrame 的方式,但我不知道如何解決這個問題。 我希望你能幫助我,謝謝。

也許這不是機器學習的正確問題。 您確定 dataframe 中存在的一項或多項統計數據與 BPM 分數之間存在某種關系嗎? 也許嘗試使用像決策樹這樣的多類分類算法,使用所有特征,在將 BPM 更改為分類分數之后,比如 0 到 -2 之間是替補球員,4 到 6 之間是全明星考慮。 我對籃球一無所知,我用這個鏈接來了解事情。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM