与 sklearn 一起交叉验证精度、召回率和 f1

Question

有没有简单的方法来交叉验证分类器并立即计算精度和召回率？ 目前我使用该功能

cross_validation.cross_val_score(classifier, designMatrix, classes, cv=5, scoring="precision")

但是它只计算一个指标，所以我必须调用它 2 次来计算精度和召回率。 对于大型 ML 模型，计算时间会不必要地延长 2 倍。 有没有更好的内置选项，还是我必须自己实现交叉验证？ 谢谢。

Answer 1

我不确定当前的情况（这个功能已经讨论过了），但你总是可以摆脱以下 - 糟糕 - hack

from sklearn.metrics import recall_score, precision_score
from sklearn.metrics.scorer import make_scorer
recall_accumulator = []
def score_func(y_true, y_pred, **kwargs):
    recall_accumulator.append(recall_score(y_true, y_pred, **kwargs))
    return precision_score(y_true, y_pred, **kwargs)
scorer = make_scorer(score_func)

然后在交叉验证中使用scoring=scorer 。 您应该在recall_accumulator数组中找到召回值。 不过要注意，这个数组是全局的，所以请确保不要以无法解释结果的方式写入它。

Answer 2

当cross_val_score()的参数n_job设置为 1 时， eickenberg 的答案有效。为了支持并行计算（ n_jobs > 1），必须使用共享列表而不是全局列表。 这可以在多处理模块的Manager类的帮助下完成。

from sklearn.metrics import precision_recall_fscore_support
from sklearn.metrics.scorer import make_scorer
from multiprocessing import Manager

recall_accumulator = Manager().list()
def score_func(y_true, y_pred, **kwargs):
    recall_accumulator.append(precision_recall_fscore_support(y_true, y_pred))
    return 0
scorer = make_scorer(score_func)

然后每个折叠的结果将存储在recall_accumulator中。

Answer 3

我也搜索过同样的问题，所以我把它留给下一个人。

您可以使用cross_validate 。 它可以在scoring参数中有多个指标名称。

scores = cross_validate(model, X, y, scoring=('precision','recall','f1'), cv=5)

与 sklearn 一起交叉验证精度、召回率和 f1

问题描述

3 个解决方案

解决方案1
1 2015-06-06 21:59:53

解决方案2
1 2016-01-31 06:52:21

解决方案3
0 2022-06-19 07:12:28

与 sklearn 一起交叉验证精度、召回率和 f1

问题描述

3 个解决方案

解决方案1 1 2015-06-06 21:59:53

解决方案2 1 2016-01-31 06:52:21

解决方案3 0 2022-06-19 07:12:28

解决方案1
1 2015-06-06 21:59:53

解决方案2
1 2016-01-31 06:52:21

解决方案3
0 2022-06-19 07:12:28