繁体 English 中英

交叉验证：来自scikit-learn参数的cross_val_score函数

[英]Cross validation: cross_val_score function from scikit-learn arguments

原文 2018-05-04 14:05:25 6 1 python/ machine-learning/ scikit-learn/ cross-validation/ data-fitting

根据scikit-learn的DOC

sklearn.model_selection.cross_val_score（estimator，X，y = None，groups = None，scoring = None，cv = None，n_jobs = 1，verbose = 0，fit_params = None，pre_dispatch ='2 * n_jobs'）

X和y

X：array-like要适合的数据。 可以是例如列表或数组。

y：array-like，optional，default：None在监督学习的情况下尝试预测的目标变量。

我想知道[X，y]是X_train，y_train还是[X，y]应该是整个数据集。 在一些来自kaggle的笔记本中，有些人使用整个数据集，还有一些人使用X_train和y_train。

据我所知，交叉验证只是评估模型并显示您是否过度匹配/不适合您的数据（它实际上并不训练模型）。 然后，在我看来，你拥有的数据越多，性能就越好，所以我会使用整个数据集。

你怎么看？

1 个解决方案

模型performance取决于数据分割的方式，有时模型没有概括的能力。

这就是我们需要交叉验证的原因。

Cross-validation是评估模型的关键步骤。 它最大化了用于训练模型的数据量，因为在训练过程中，模型不仅经过培训，而且还在所有可用数据上进行测试。

我想知道[X，y]是X_train，y_train还是[X，y]应该是整个数据集。

[X, y]应该是整个数据集，因为内部交叉验证将数据分成training数据和test数据。

假设您使用5次交叉验证（cv = 5）。

我们首先将数据集拆分为五组或折叠。 然后我们将第一个折叠作为测试集，在剩余的四个折叠上拟合模型，在测试集上预测并计算感兴趣的度量。

接下来，我们将第二个折叠作为输出测试集，适合剩余数据，在测试集上预测并计算感兴趣的度量。

默认情况下，scikit-learn的cross_val_score()函数使用R^2得分作为回归的选择度量。

R^2得分称为确定系数。

使用 cross_val_predict 与 cross_val_score 时，scikit-learn 分数不同

[英]scikit-learn scores are different when using cross_val_predict vs cross_val_score

包装器自定义 class 用于 scikit-learn 的迭代输入器，与 cross_val_score() 一起使用

[英]Wrapper custom class for scikit-learn's Iterative Imputer for use with cross_val_score()

“得分必须返回一个数字”scikit-learn中的cross_val_score错误

[英]“scoring must return a number” cross_val_score error in scikit-learn

如何将 f1_score arguments 传递给 scikit 中的 make_scorer 学习与 cross_val_score 一起使用？

[英]How to pass f1_score arguments to the make_scorer in scikit learn to use with cross_val_score?

scikit.learn cross_val_score 中的错误

[英]Error in scikit.learn cross_val_score

解释 cross_val_score scikit_learn 参数 cv

[英]Explication cross_val_score scikit_learn parameter cv

scikit-learn：交叉验证评分是否评估了日志丢失函数？

[英]scikit-learn: Is the cross validation score evaluating the log loss function?

Scikit-learn cross_val_score 抛出 ValueError：必须始终传递“Layer.call”的第一个参数

[英]Scikit-learn cross_val_score throws ValueError: The first argument to `Layer.call` must always be passed

Scikit：使用cross_val_score函数计算精度和召回率

[英]Scikit: calculate precision and recall using cross_val_score function

Scikit-learn cross val得分：数组的索引太多了

[英]Scikit-learn cross val score: too many indices for array

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用 cross_val_predict 与 cross_val_score 时，scikit-learn 分数不同包装器自定义 class 用于 scikit-learn 的迭代输入器，与 cross_val_score() 一起使用 “得分必须返回一个数字”scikit-learn中的cross_val_score错误如何将 f1_score arguments 传递给 scikit 中的 make_scorer 学习与 cross_val_score 一起使用？ scikit.learn cross_val_score 中的错误解释 cross_val_score scikit_learn 参数 cv scikit-learn：交叉验证评分是否评估了日志丢失函数？ Scikit-learn cross_val_score 抛出 ValueError：必须始终传递“Layer.call”的第一个参数 Scikit：使用cross_val_score函数计算精度和召回率 Scikit-learn cross val得分：数组的索引太多了

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM