即使我事先設置了隨機狀態，為什么我的 cross_val_score 總是不同？

Question

我對機器學習很陌生，最近遇到了一個我不確定的問題。 當我在 Jupyter Notebook 中運行代碼（如圖所示）時，它每次都會給我不同的分數，我不知道為什么？

我認為通過為 KFold 設置 random_state 或種子，它每次都會為我的cross_val_score提供相同的分數？

results = []
names = []

seed=12

for name, model in models:
    kfold = KFold(n_splits=num_folds, random_state=seed)
    cv_results = cross_val_score(model, X_train, y_train.ravel(), cv=kfold, scoring=scoring)
    results.append(cv_results)
    names.append(name)
    msg = '{}:  score: {:.2f},  std_dev:{:.2f}'.format(name, 
    cv_results.mean(), cv_results.std()) 
    print(msg)

一些示例輸出：

LR:  score: -24.69,  std_dev: 19.74  
LASSO:  score: -29.82,  std_dev: 20.94  
EN:  score: -28.59,  std_dev: 19.79  
KNN:  score: -38.66,  std_dev: 28.77  
CART:  score: -16.42,  std_dev: 15.39  
SVR:  score: -60.53,  std_dev: 44.24

對於使用相同代碼的第二次運行（同樣的種子）：

LR:  score: -24.69,  std_dev: 19.74  
LASSO:  score: -29.82,  std_dev: 20.94  
EN:  score: -28.59,  std_dev: 19.79  
KNN:  score: -38.66,  std_dev: 28.77  
CART:  score: -18.65,  std_dev: 17.91  
SVR:  score: -60.53,  std_dev: 44.24

Answer 1

在sklearn ，決策樹和隨機森林也依賴於隨機性，因此您需要為這些估計器設置隨機狀態以確保可重復性。

請注意，其他模型的分數相同。

Answer 2

在kfold = KFold(n_splits=num_folds, random_state=seed) ，我認為您需要添加shuffle = True ，如果沒有，默認情況下shuffle = False並且random_state無效。

即使我事先設置了隨機狀態，為什么我的 cross_val_score 總是不同？

問題描述

2 個解決方案

解決方案1
1 2019-04-13 09:15:57

解決方案2
1 2020-05-04 16:13:31

即使我事先設置了隨機狀態，為什么我的 cross_val_score 總是不同？

問題描述

2 個解決方案

解決方案1 1 2019-04-13 09:15:57

解決方案2 1 2020-05-04 16:13:31

解決方案1
1 2019-04-13 09:15:57

解決方案2
1 2020-05-04 16:13:31