簡體   English   中英

機器學習分類結果好得令人難以置信嗎?

[英]Machine-Learning classification results too good to be true?

對不起所有文字,但我認為該項目的背景會有所幫助:

我一直在從事二進制分類項目。 原始數據集由大約28,000個0類和650個1類組成,因此非常不平衡。 我得到了一個過采樣和過采樣的數據集,可以處理每個類的5,000個數據集(第1類實例僅重復了9次)。 在對此進行了模型訓練並獲得了低於標准的結果(AUC約為0.85,但它需要更好)之后,我開始懷疑這些采樣技術是否真的是一個好主意,因此我再次取出了原始的高度不平衡的數據集。 我將其直接插入默認的GradientBoostClassifier中,對80%的數據進行了訓練,然后我立即得到了以下內容:

Accuracy:
0.997367035282
AUC:
.9998
Confusion Matrix:
[[5562    7]
 [   8  120]]

現在,我知道高准確度可能是不平衡類的假象,但是我沒想到會有這樣或那樣的性能的AUC! 所以我很困惑,覺得我的技術中一定有錯誤……但是我不知道這是什么。 我也嘗試了幾個不同的分類器,並獲得了相似水平的可笑的良好性能。 我沒有將類標簽留在數據數組中,並且訓練數據與測試數據完全不同。 每個觀測值也具有約130個特征,因此這不是一個簡單的分類。 看起來好像有點不對勁,我敢肯定分類器不可能這么好。 我還能忽略什么嗎? 人們是否會因數據不平衡而遇到其他常見陷阱?

我可以提供代碼,概率圖,示例數據點等,如果它們會有所幫助,但我不希望現在過長。 感謝任何可以提供幫助的人!

精度可能不是您所需要的最佳性能指標,也許您可​​以考慮使用精度,召回率和F1得分,並通過學習曲線,過度擬合檢測等進行一些調試。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM