機器學習分類結果好得令人難以置信嗎？

Question

對不起所有文字，但我認為該項目的背景會有所幫助：

我一直在從事二進制分類項目。 原始數據集由大約28,000個0類和650個1類組成，因此非常不平衡。 我得到了一個過采樣和過采樣的數據集，可以處理每個類的5,000個數據集（第1類實例僅重復了9次）。 在對此進行了模型訓練並獲得了低於標准的結果（AUC約為0.85，但它需要更好）之后，我開始懷疑這些采樣技術是否真的是一個好主意，因此我再次取出了原始的高度不平衡的數據集。 我將其直接插入默認的GradientBoostClassifier中，對80％的數據進行了訓練，然后我立即得到了以下內容：

Accuracy:
0.997367035282
AUC:
.9998
Confusion Matrix:
[[5562    7]
 [   8  120]]

現在，我知道高准確度可能是不平衡類的假象，但是我沒想到會有這樣或那樣的性能的AUC！ 所以我很困惑，覺得我的技術中一定有錯誤……但是我不知道這是什么。 我也嘗試了幾個不同的分類器，並獲得了相似水平的可笑的良好性能。 我沒有將類標簽留在數據數組中，並且訓練數據與測試數據完全不同。 每個觀測值也具有約130個特征，因此這不是一個簡單的分類。 看起來好像有點不對勁，我敢肯定分類器不可能這么好。 我還能忽略什么嗎？ 人們是否會因數據不平衡而遇到其他常見陷阱？

我可以提供代碼，概率圖，示例數據點等，如果它們會有所幫助，但我不希望現在過長。 感謝任何可以提供幫助的人！

Answer 1

精度可能不是您所需要的最佳性能指標，也許您可以考慮使用精度，召回率和F1得分，並通過學習曲線，過度擬合檢測等進行一些調試。

機器學習分類結果好得令人難以置信嗎？

問題描述

1 個解決方案

解決方案1
0 2016-08-16 22:28:46

機器學習分類結果好得令人難以置信嗎？

問題描述

1 個解決方案

解決方案1 0 2016-08-16 22:28:46

解決方案1
0 2016-08-16 22:28:46