簡體   English   中英

在不平衡數據集中最大化多數類別的預測准確性

[英]Maximising prediction accuracy of the majority class in an imbalanced dataset

當談論不平衡的數據集時,大多數文章會提到最大化少數群體類別的預測(例如,用於欺詐檢測)。 我有一個不平衡的數據集(比率約為1:20)。 我有興趣在大多數班級達到最高的預測精度的地方。 我的工作是在Python中進行的。 我研究過的可能解決方案是:

  • 少數群體的過度采樣
  • 更改某些分類模型的損失/成本矩陣

使用每種方法的優缺點是什么? 我還有其他方法可以嘗試嗎?

您在想這是錯誤的方式。 如果您關心的只是多數階級,那么您就可以預測一切都屬於多數階級。 您會正確地獲得其中的100%。 您可能會有很多誤報,但您不在乎這些嗎?

嗯,如果您確實關心誤報,那實際上意味着您實際上關心的是少數群體。 您正確預測的少數群體中的事情越多,您的假陽性就越少。

這是同一枚硬幣的兩個面。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM