欠采樣 numpy 陣列

Question

我有一個包含 10192 個“0”樣本和 2512 個“1”樣本的火車。
我在片場應用了 PCA 來降低維度。
我想對這個 numpy 數組進行欠采樣。
這是我的代碼：

df = read_csv("train.csv")
X = df.drop(['label'], axis = 1)
y = df['label']
from sklearn.model_selection import train_test_split

X_train, X_validation, y_train, y_validation = train_test_split(X, y, test_size = 0.2, random_state = 42)
model = PCA(n_components = 19)
model.fit(X_train)
X_train_pca = model.transform(X_train)
X_validation_pca = model.transform(X_validation)

X_train = np.array(X_train_pca)
X_validation = np.array(X_validation_pca)
y_train = np.array(y_train)
y_validation = np.array(y_validation)

如何從 X_train numpy 數組中對“0”class 進行欠采樣？

Answer 1

將 csv 導入df后嘗試：

# class count
count_class_0, count_class_1 = df.label.value_counts()

# separate according to `label`
df_class_0 = df[df['label'] == 0]
df_class_1 = df[df['label'] == 1]

# sample only from class 0 quantity of rows of class 1
df_class_0_under = df_class_0.sample(count_class_1)
df_test_under = pd.concat([df_class_0_under, df_class_1], axis=0)

然后對df_test_under數據框執行所有計算。

或者使用RandomUnderSampler ：

from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)

欠采樣 numpy 陣列

問題描述

1 個解決方案

解決方案1
1 已采納 2020-07-13 10:10:48

欠采樣 numpy 陣列

問題描述

1 個解決方案

解決方案1 1 已采納 2020-07-13 10:10:48

解決方案1
1 已采納 2020-07-13 10:10:48