根据每个输入元素返回 tp, tn, fn, fp

Question

我有一个 csv 文件，其中包含与 ID 关联的真实和预测标签（4 个类）。 csv 文件如下所示：

task_id,labels_true,labels_pred
76017-126511-18,2,2
76017-126512-18,0,3
76017-126513-18,2,2
76018-126511-18,2,2
76018-126512-18,2,2
76018-126513-18,2,1
76019-126511-18,2,2
76019-126512-18,1,0

我正在使用来自sklearn.metrics的混淆矩阵

y_true = df["labels_true"]
y_pred = df["labels_pred"]

cnf_matrix = confusion_matrix(y_true, y_pred, labels=[0,1,2,3])

它返回一个数组，如下所示：

[[ 554    1   28    0]
[  15  1375   43    0]
[  42   476 2263    0]
[   0    0    0    0]]

我的目标是返回一个列表，每个元素 ID 与相应的 tp、tn、fp、fn 值相关联，如下所示：

task_id,labels_true,labels_pred, cm
76017-126511-18,2,2, tp 
76017-126513-18,2,2, tp
76018-126511-18,2,2, tp

Answer 1

这是一个多类混淆矩阵。 真/假阳性用于二元分类问题。 您可以做的是将您的标签编码为二进制值（例如，将类 1、2、3 编码为 1）并重新计算混淆矩阵。

Answer 2

TL; DR：对于多级的情况下，这是不可能的。

如前所述，真阳性 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN) 的概念来自二元分类设置； 他们的确可以多类分类中使用，如图所示这里，但在这种情况下，概念不是二进制的情况的直接扩展，让你在这里问什么实际上是不可能的。

在多类分类中，所有这些概念都是按类定义和计算的。 这使得将样本唯一标识为属于这些类别（TP、FP、TN、FN）中的一种且仅一种的努力变得不可能。

让我们通过一些示例来演示这一点，使用您的案例（4 个类[0, 1, 2, 3] ）。

首先取一个错误分类的样本，例如：

True label:      0
Predicted label: 3

从0类的角度（POV）来看，这是一个假阴性（FN）：预测不是0 ，因为它应该是
从第1类的 POV 来看，这是一个 True Negative：它不是1 ，并且它已被正确分类为 not 1
从第2类的 POV 来看，这又是一个真阴性 (TN)：它不是2 ，并且它已被正确分类为非2
从第3类的 POV 来看，这是一个误报（FP）：它被错误地归类为3而不是这样

类似的情况是正确分类的情况，例如

True label:      2
Predicted label: 2

从0类的 POV 来看，这是一个真阴性 (TN)：它不是0 ，并且它已被正确分类为非0
从第1类的 POV 来看，这是一个真阴性 (TN)：它不是1 ，并且它已被正确地归类为 not 1
从第2类的 POV 来看，这是真阳性 (TP)
从第3类的 POV 来看，这是一个真负 (TN)：它不是3 ，并且它已被正确分类为不是3

鉴于此说明，希望您能清楚地知道，在多类情况下，您所要求的实际上是不可能的。

根据每个输入元素返回 tp, tn, fn, fp

问题描述

2 个解决方案

解决方案1
0 2020-11-18 12:52:09

解决方案2
0 已采纳 2020-11-19 01:48:18

根据每个输入元素返回 tp, tn, fn, fp

问题描述

2 个解决方案

解决方案1 0 2020-11-18 12:52:09

解决方案2 0 已采纳 2020-11-19 01:48:18

解决方案1
0 2020-11-18 12:52:09

解决方案2
0 已采纳 2020-11-19 01:48:18