[英]Making my logistic regression testing accuracy closer to my training accuracy with Python
我有一個656因素的籃球統計數據集。 我使用邏輯回歸分類器通過從團隊2統計數據中減去團隊1統計數據來預測贏家和輸家(團隊1勝或團隊2勝)。 除了標准化之外,如何提高測試集的准確性以使其更接近訓練集的准確性或僅提高准確性?
我認為歸一化是一種可能的解決方案,但由於我正在做統計數據的差異,因此大多數值都在相同的范圍內
X = final_data_array[:,:656]
Y = final_data_array[:,656]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)
print(logistic.score(X_test, Y_test))
print(logistic.score(X_train, Y_train))
0.7818791946308725
0.9069506726457399
您可以嘗試對數據集進行一些特征工程,除了標准化數據集和檢查准確性之外。 我還建議你嘗試其他分類算法,如xgbclassifier,隨機森林分類器等。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.