R：如何為預測 model 制作混淆矩陣？

Question

我有一個 dataframe。 第一列包含我的預測分數（范圍從 0 到 100，較小的值預計在 class A 中，較大的值預計在 class B 中）我的 Z20F35E630DAF44DBFA4C3F68F5399DZ 條目的真實分類A 級”或“B 級”）。

如何使用 R 獲得混淆矩陣以獲得不同的截止值，因為我無法決定應該在哪里將值 < 20 或 < 50 定義為 class A 呢？

如何使用 R 有效地進行這種比較？

Answer 1

有很多方法可以做到這一點，一個可重現的數據示例是可取的：

set.seed(12345)
test <- data.frame(pred=c(runif(50,0,75),runif(50,25,100)), group=c(rep("A",50), rep("B",50)) )
table(test$pred<50,test$group)

給

         A  B
  FALSE 18 34
  TRUE  32 16

所以這表示 32 個 A 低於 50，34 個 B 超過 50，而 18 個 A 超過 50（分類錯誤），16 個 B 低於 50（分類錯誤）

set.seed(12345)
test <- data.frame(pred=c(runif(50,0,60),runif(50,40,100)), group=c(rep("A",50), rep("B",50)) )
table(test$pred<50,test$group)

給

         A  B
  FALSE  8 40
  TRUE  42 10

在此示例中，由於選擇了抽樣，您的分類要好得多。

然后可以將其中的“50”更改為您想要的任何值，20、30 等。

table(test$pred<50,test$group)