繁体 English 中英

sklearn中RepeatedStratifiedKFold和StratifiedKFold的区别

[英]Differences between RepeatedStratifiedKFold and StratifiedKFold in sklearn

原文 2022-02-19 00:22:41 7 1 python/ machine-learning/ scikit-learn/ classification/ cross-validation

我试图阅读RepeatedStratifiedKFold和StratifiedKFold的文档，但无法分辨这两种方法之间的区别，除了RepeatedStratifiedKFold重复StratifiedKFold n次，每次重复时随机化不同。

我的问题是：这两种方法返回相同的结果吗？ 在执行GridSearchCV时，我应该使用哪一个来拆分不平衡的数据集？选择该方法的理由是什么？

1 个解决方案

StratifiedKFold和RepeatedStratifiedKFold在用于严重 class 不平衡的分类问题时都非常有效。 他们都是按class label对抽样进行分层； 也就是说，他们以这样一种方式拆分数据集，即在每个子集/折叠中保留与原始数据集中大致相同的 class 分布（即，每个类别的样本百分比相同）。 但是，单次运行StratifiedKFold可能会导致对模型性能的估计有噪声，因为数据的不同拆分可能会导致非常不同的结果。 这就是RepeatedStratifiedKFold发挥作用的地方。

RepeatedStratifiedKFold允许提高机器学习的估计性能 model，通过多次重复交叉验证过程（根据n_repeats值），并报告所有运行的所有折叠的平均结果。 此平均结果有望更准确地估计模型的性能（请参阅本文）。

因此——回答你的问题——不，这两种方法不会提供相同的结果。 使用RepeatedStratifiedKFold意味着每次运行该过程都会导致将数据集不同地拆分为分层k折叠，因此，性能结果会有所不同。

RepeatedStratifiedKFold的好处是可以以拟合和评估更多模型为代价提高估计模型的性能。 例如，如果使用 10 折交叉验证的 5 次重复（即n_repeats=5 ）来估计模型的性能，则意味着需要拟合（训练）和评估 50 个不同的模型——这可能是计算上的昂贵，取决于数据集的大小、机器学习算法的类型、设备规格等。但是， RepeatedStratifiedKFold过程可以在不同的内核或不同的机器上执行，这可以显着加快过程。 例如，设置n_jobs=-1将使用系统上所有可用的核心（请看这里）。

在进行评估时，请确保使用适当的指标，如本答案中所述。

sklearn 中 StratifiedKFold 和 StratifiedShuffleSplit 的区别

[英]difference between StratifiedKFold and StratifiedShuffleSplit in sklearn

mlab PCA和sklearn PCA之间的区别

[英]Differences between mlab PCA and sklearn PCA

sklearn的SimpleImputer和Imputer之间的差异

[英]Differences between sklearn's SimpleImputer and Imputer

sklearn中的BaggingClassifier默认配置与强制投票之间的差异

[英]Differences between default config of BaggingClassifier in sklearn and hard voting

是否可以在多输入神经网络中使用sklearn的StratifiedKFold？

[英]Is it possible to use StratifiedKFold from sklearn in multi input Neural Networks?

sklearn的规范化及其差异

[英]Normalizations in sklearn and their differences

sklearn.model_selection.KFold和sklearn.model_selection.cross_validate与'cv'参数之间的差异？

[英]Differences between sklearn.model_selection.KFold and sklearn.model_selection.cross_validate with 'cv' parameter?

TFIDF 的 Sklearn 和 Elasticsearch 结果的差异

[英]Differences in Sklearn and Elasticsearch results for TFIDF

cross_val_score 和 StratifiedKFold 之间的 F-Score 差异

[英]F-Score difference between cross_val_score and StratifiedKFold

sklearn 0.17和0.18-如何仅检索StratifiedKFold对象的第一个值？

[英]python - sklearn 0.17 and 0.18 - how to retrieve only the first value of an StratifiedKFold object?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 sklearn 中 StratifiedKFold 和 StratifiedShuffleSplit 的区别 mlab PCA和sklearn PCA之间的区别 sklearn的SimpleImputer和Imputer之间的差异 sklearn中的BaggingClassifier默认配置与强制投票之间的差异是否可以在多输入神经网络中使用sklearn的StratifiedKFold？ sklearn的规范化及其差异 sklearn.model_selection.KFold和sklearn.model_selection.cross_validate与'cv'参数之间的差异？ TFIDF 的 Sklearn 和 Elasticsearch 结果的差异 cross_val_score 和 StratifiedKFold 之间的 F-Score 差异 sklearn 0.17和0.18-如何仅检索StratifiedKFold对象的第一个值？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM