繁体   English   中英

对于训练数据,ROC下的sklearn svm区域小于0.5

[英]sklearn svm area under ROC less than 0.5 for training data

我正在使用sklearn v 0.13.1 svm来尝试解决二进制分类问题。 我使用kfold交叉验证并计算roc曲线下的面积(roc_auc)来测试我的模型的质量。 但是,对于某些折叠,roc_auc小于0.5,即使对于训练数据也是如此。 那不应该是不可能的吗? 难道算法总是不可能在训练的数据上至少达到0.5吗?

这是我的代码:

classifier = svm.SVC(kernel='poly', degree=3, probability=True, max_iter=100000)
kf = cross_validation.KFold(len(myData), n_folds=3, indices=False)
for train, test in kf:
    Fit = classifier.fit(myData[train], classVector[train])

    probas_ = Fit.predict_proba(myData[test])
    fpr, tpr, thresholds = roc_curve(classVector[test], probas_[:,1])
    roc_auc = auc(fpr, tpr)

    probas_ = Fit.predict_proba(myData[train])
    fpr2, tpr2, thresholds2 = roc_curve(classVector[train], probas_[:,1])
    roc_auc2 = auc(fpr2, tpr2)

    print "Training auc: ", roc_auc2, " Testing auc: ", roc_auc

输出如下所示:

    Training auc: 0.423920939062  Testing auc: 0.388436883629
    Training auc: 0.525472613736  Testing auc: 0.565581854043
    Training auc: 0.470917930528  Testing auc: 0.259344660194

曲线下面积小于0.5的结果是否有意义? 原则上,如果列车和测试值都<0.5,我只能反映每个点的预测,但我担心出现问题。 我认为即使我给它完全随机数据,算法应该在训练数据上达到0.5?

实际上,您可以反转您的预测,这就是您的AUROC <0.5的原因。 这样做通常不是问题,只要确保一致,并且始终或永远不要反转它们。 确保在训练和测试集上都这样做。

出现此问题的原因可能是classifier.fitroc_curve函数误解了您传递的classVector。 最好修改它 - 阅读他们的文档以了解他们期望的数据。 特别是,您没有指定哪个标签是正面的。 pos_label参数roc_curve并确保y_true正确指定。

然而,令人担忧的是,你的一些AUROC在训练集上大于0.5,而且大多数都接近它。 这可能意味着你的分类器的表现并不比随机好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM