繁体   English   中英

GridSearchCV 没有提高我的测试准确性

[英]GridSearchCV does not improve my test accuracy

我正在制作多个分类器模型,所有这些模型的测试精度都是 0.508。

我发现多个模型具有相同的准确度很奇怪。 我使用的模型是 Logistic Regressor、DesicionTreeClassifier、MLPClassifier、RandomForestClassifier、BaggingClassifier、AdaBoostClassifier、XGBClassifier、SVC 和 VotingClassifier。

在使用 GridSearchCV 改进模型后,他们所有的测试准确率分数都有所提高。 但测试准确度分数没有改变。

我希望我能说我改变了什么,但我不知道为什么考试成绩没有改变。 使用 gridsearch 后,我期望考试成绩会有所提高,但没有

我想确认一下,你的意思是你的训练分数提高了但你的测试分数没有变化? 如果是的话,这背后有很多可能性。

  • 您可能想要重新配置并添加您的超参数范围,例如,如果使用 KNN,您可以增加 k 的数量或通过添加更多距离度量计算
  • 如果你愿意,你可以改变超参数优化技术,如随机搜索或贝叶斯搜索
  • 我没有关于您的数据的任何信息,但有时在拆分时打开或关闭随机播放模式会影响分数,例如,如果您有时间序列数据,则不必随机播放数据集

看看你的准确性,首先我会说:你在执行二元分类任务吗? 因为如果是这样,你的模型在测试集上几乎不比随机好,这可能表明你的训练有问题。

否则, GridSearchCVRandomSearchCV和其他超参数优化技术一样会尝试在您定义的范围内找到最佳参数。 如果在优化之后,你的最优参数值是你范围的一个界限,这可能表明你需要探索超出这个界限,也就是说故意设置另一个范围并再次运行优化。

顺便说一下,我不知道你的数据集的大小,但如果它很大,我会建议你使用RandomSearchCV而不是GridSearchCV 由于它不是详尽无遗的,因此它花费的时间更少,并且给出的结果(几乎)是优化的。

使用 GridSearchCV 后测试准确性没有改变的原因可能有多种:

GridSearchCV 找到的最佳参数可能不是测试数据的最佳参数。

测试数据可能与训练数据有不同的分布,导致测试准确率低。

这些模型可能对训练数据过度拟合,而不能很好地泛化到测试数据。

测试数据量可能很小,导致测试准确度分数的差异很大。

问题本身可能具有挑战性,0.508 的测试精度可能是当前模型和数据所能达到的最佳精度。

获得有关数据、问题和实验设置的更多信息以进一步诊断问题会很有用。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM