简体繁体 English

Python sklearn 中的训练集

[英]Training Set in Python sklearn

原文 2019-12-03 07:02:47 0 1 python/ machine-learning/ scikit-learn

如果我在子组大小方面有一个有偏见的数据集，例如，如果我试图预测 'a','b','c' 标签，但我的数据集有 1000 个 'a' 标签、500 个 'b' 标签和 250 个 ' c' 标签，sklearn 是否对此有任何解决方法，还是会自动考虑到这一点？

1 个解决方案

Sklearn provides the funtionality to deal with imbalanced data itself, you have to check out with the different metrics avalaible here and use it to find the best metric for which your model have higher accuracy rates. Sklearn 提供了处理不平衡数据本身的功能，您必须查看此处可用的不同指标，并使用它来找到模型具有更高准确率的最佳指标。 Scroing metrics is the parameter which can help you with imbalanced datasets.评分指标是可以帮助您处理不平衡数据集的参数。 Just choose your scoring while training the model according to your problem and it will considerably help to deal it with.只需根据您的问题在训练模型时选择您的评分，这将大大有助于处理它。

When dealing with imbalanced data you can always do oversampling for the classes.在处理不平衡数据时，您始终可以对类进行过采样。 This process can be done in data preprocessing.这个过程可以在数据预处理中完成。

More about dealing with imbalanced data you can read here and here您可以在此处和此处阅读有关处理不平衡数据的更多信息

在gridsearchcv sklearn中举行了培训和验证集 - Held out training and validation set in gridsearchcv sklearn

无法使用sklearn创建测试和训练集 - Unable to create a test and training set using sklearn

Python Sklearn train_test_split（）：如何设置要训练的数据？ - Python Sklearn train_test_split(): how to set Which Data is Taken for Training?

为什么grid_scores_高于完整训练集的分数？（sklearn，Python，GridSearchCV） - Why are the grid_scores_ higher than the score for full training set? (sklearn, Python, GridSearchCV)

Python sklearn 在训练期间显示损失值 - Python sklearn show loss values during training

在 Python 中使用 sklearn 使用 MAE 训练线性模型 - Training Linear Models with MAE using sklearn in Python

Sklearn 将 Pandas Dataframe 和 CSR Matrix 拆分为测试和训练集 - Sklearn split Pandas Dataframe and CSR Matrix into Test and Training set

使用 sklearn SVC 计算训练集的混淆矩阵 - Calculate confusion_matrix for Training set with sklearn SVC

使用python sklearn增量训练随机森林模型 - Incremental training of random forest model using python sklearn

Kfold sklearn中的训练子集 - Training subset in Kfold sklearn

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在gridsearchcv sklearn中举行了培训和验证集 - Held out training and validation set in gridsearchcv sklearn 无法使用sklearn创建测试和训练集 - Unable to create a test and training set using sklearn Python Sklearn train_test_split（）：如何设置要训练的数据？ - Python Sklearn train_test_split(): how to set Which Data is Taken for Training? 为什么grid_scores_高于完整训练集的分数？（sklearn，Python，GridSearchCV） - Why are the grid_scores_ higher than the score for full training set? (sklearn, Python, GridSearchCV) Python sklearn 在训练期间显示损失值 - Python sklearn show loss values during training 在 Python 中使用 sklearn 使用 MAE 训练线性模型 - Training Linear Models with MAE using sklearn in Python Sklearn 将 Pandas Dataframe 和 CSR Matrix 拆分为测试和训练集 - Sklearn split Pandas Dataframe and CSR Matrix into Test and Training set 使用 sklearn SVC 计算训练集的混淆矩阵 - Calculate confusion_matrix for Training set with sklearn SVC 使用python sklearn增量训练随机森林模型 - Incremental training of random forest model using python sklearn Kfold sklearn中的训练子集 - Training subset in Kfold sklearn

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM