如何使用过采样和欠采样的组合？学习不平衡

Question

我想对一些大数据进行重新采样（类大小：8mio vs 2700）我想通过对 class 2 进行过采样和对 class 1 进行欠采样来获得 50.000 个样本。imblearn 似乎提供了一个过采样和过采样的组合作品。

from collections import Counter
from imblearn.over_sampling import SMOTENC
from imblearn.under_sampling import TomekLinks
from imblearn.combine import SMOTETomek

smt = SMOTETomek(random_state=1)
X_resamp, y_resamp = smt.fit_resample(data_all[29000:30000], labels_all[29000:30000])

在数据看起来像之前

>>Counter(labels_all[29000:30000])
>>Counter({0: 968, 9: 32})

之后

>>Counter(y_resamp)
>>Counter({0: 968, 9: 968})

正如我所期望或希望的那样

>>Counter(y_resamp)
>>Counter({0: 100, 9: 100})

Answer 1

似乎您只有 32 条记录 class 9 ，因此它对 class 进行采样并将其数据记录与 class 0的数据记录对齐，因此为9: 968

您正在谈论将数据集减少到 100 条记录，您可以从X和Y （相同的 100 条记录）中为每个 class 随机抽样 100 条记录，或者像y_resamp[:100]一样获取前 100 条记录

如何使用过采样和欠采样的组合？学习不平衡

问题描述

1 个解决方案

解决方案1
1 已采纳 2019-10-14 11:51:08

如何使用过采样和欠采样的组合？ 学习不平衡

问题描述

1 个解决方案

解决方案1 1 已采纳 2019-10-14 11:51:08

如何使用过采样和欠采样的组合？学习不平衡

解决方案1
1 已采纳 2019-10-14 11:51:08