繁体   English   中英

如何对庞大的数据集进行交叉验证和超参数调整?

[英]how to do cross validation and hyper parameter tuning for huge dataset?

我有一个10 + gb的csv文件,我在pandas.read_csv()中使用了“ chunksize”参数来读取和预处理数据,以训练该模型要使用一种在线学习算法。

通常在整个训练数据集上进行交叉验证和超参数调整,并使用最佳超参数训练模型,但是在海量数据的情况下,如果我对训练数据块进行相同的操作选择超参数?

我相信您正在寻找在线学习算法,例如本链接针对大型数据集的缩放策略中提到的算法。 您应该使用支持partial_fit参数的算法来分块加载这些大型数据集。 您还可以查看以下链接,以查看哪一个对您有最大的帮助,因为您尚未指定确切的问题或正在使用的算法:

编辑 :如果您想解决类不平衡问题,可以尝试一下: python中的imabalanced-learn库

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM