簡體   English   中英

上次分層的K折表現不同

[英]Last Stratified K-Fold Performance Distinct

我將訓練集划分為分層k折,如下所示:

n_folds = 5
skf = list(StratifiedKFold(y, n_folds, random_state=SEED))

for k, (train, test) in enumerate(skf):
      X_train = X[train]
      y_train = y[train]
      X_val = X[test]
      y_val = y[test]

      clf.fit(X_train, y_train)
      preds = clf.predict_proba(X_val)

前4折的分類精度符合預期。 最后一折具有明顯差的准確性。

我嘗試過改變SEED和n_folds的值,在所有情況下,最后的折疊總是最差的(5折,大約3%)。 為什么會這樣呢?

謝謝。

事實證明,默認情況下StratifiedKFold不對數據進行混洗。 因此,我需要將隨機播放參數設置為True:

n_folds = 10
skf = list(StratifiedKFold(y, n_folds, shuffle=True, random_state=SEED)) 

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM