scikit-learn 中的不平衡

不平衡學習中一些常見的過采樣和欠采樣技術是 imblearn.over_sampling.RandomOverSampler、imblearn.under_sampling.RandomUnderSampler 和 imblearn.SMOTE。 對於這些庫，有一個很好的參數，允許用戶更改采樣率。

例如，在 SMOTE 中，要更改比率，您將輸入字典，並且所有值必須大於或等於最大類（因為 SMOTE 是一種過采樣技術）。 我發現 SMOTE 更適合模型性能的原因可能是因為使用 RandomOverSampler 可以復制行，這意味着模型可以開始記憶數據而不是泛化到新數據。 SMOTE 使用 K-Nearest-Neighbors 算法使“相似”數據點與采樣數據點相似。

盲目使用 SMOTE，將比率設置為默認值（甚至類平衡）並不是一個好習慣，因為模型可能會過度擬合一個或多個少數類（即使 SMOTE 使用最近的鄰居來進行“相似”的觀察）。 以與調整 ML 模型的超參數類似的方式，您將調整 SMOTE 算法的超參數，例如比率和/或 knn。 以下是如何正確使用 SMOTE 的工作示例。

注意：不要在完整數據集上使用 SMOTE，這一點至關重要。 您必須僅在訓練集上使用 SMOTE（拆分后）。 然后在您的 val/test 集上進行驗證，看看您的 SMOTE 模型是否優於您的其他模型。 如果你不這樣做，就會有數據泄露，你的模型本質上就是在作弊。

from collections import Counter
from sklearn.preprocessing import MinMaxScaler
from imblearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE
import numpy as np
from xgboost import XGBClassifier
import warnings

warnings.filterwarnings(action='ignore', category=DeprecationWarning)
sm = SMOTE(random_state=0, n_jobs=8, ratio={'class1':100, 'class2':100, 'class3':80, 'class4':60, 'class5':90})

### Train test split
X_train, X_val, y_train, y_val = train_test_split(X, y)

### Scale the data before applying SMOTE
scaler = MinMaxScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_val_scaled = scaler.transform(X_val)

### Resample X_train_scaled
X_train_resampled, y_train_resampled = sm.fit_sample(X_train_scaled, y_train)

print('Original dataset shape:', Counter(y_train))
print('Resampled dataset shape:', Counter(y_train_resampled))

### Train a model
xgbc_smote = XGBClassifier(n_jobs=8).fit(X_train_smote, y_train_smote,
                                         eval_set = [(X_val_scaled, y_val)],
                                         early_stopping_rounds=10)

### Evaluate the model
print('\ntrain\n')
print(accuracy_score(xgbc_smote.predict(np.array(X_train_scaled)), y_train))
print(f1_score(xgbc_smote.predict(np.array(X_train_scaled)), y_train))

print('\nval\n')
print(accuracy_score(xgbc_smote.predict(np.array(X_val_scaled)), y_val))
print(f1_score(xgbc_smote.predict(np.array(X_val_scaled)), y_val))

scikit-learn 中的不平衡

問題描述

5 個解決方案

解決方案1
91 2016-08-05 02:35:35

解決方案2
33 2013-09-19 17:39:12

解決方案3
14 2014-11-17 19:10:47

解決方案4
8 2013-02-25 21:26:44

解決方案5
6 2018-11-09 21:23:19

scikit-learn 中的不平衡

問題描述

5 個解決方案

解決方案1 91 2016-08-05 02:35:35

解決方案2 33 2013-09-19 17:39:12

解決方案3 14 2014-11-17 19:10:47

解決方案4 8 2013-02-25 21:26:44

解決方案5 6 2018-11-09 21:23:19

解決方案1
91 2016-08-05 02:35:35

解決方案2
33 2013-09-19 17:39:12

解決方案3
14 2014-11-17 19:10:47

解決方案4
8 2013-02-25 21:26:44

解決方案5
6 2018-11-09 21:23:19