[英]How can I use the test_proportion data in a machine learning model?
我有一个包含 4000 个 CNN 特征的数据,这是一个二元分类问题。 我所知道的测试数据是 1 和 0 的比例。如何告诉我的 model 使用比例数据预测测试标签? (就像有没有办法说为了达到这个比例,我会给这个实例0。)
如何使用它来提高准确性? 在我的情况下,训练数据主要由 1 (85%) 和 0(15%) 组成,但是在我的测试数据中,l 的比例为 (%38),因此它与训练数据有很大不同。
我在平衡数据方面做了一些工作,这很有帮助。 然而,我的 model 仍然预测几乎所有数据的 1。 它也可能由于适应问题而发生。
正如@birdwatch 建议的那样,我降低了 0 值的阈值并尝试增加预测中的 0 label 计数。
# Predicting the Test set results
y_pred = classifier.predict_proba(X_test)
threshold=0.3
y_pred [:,0] = (y_pred [:,0] < threshold).astype('int')
前班数如下:
1 : 8906
0 : 2968
现在更改阈值后
1 : 3221
0 : 8653
但是,还有其他方法可以使用 test_proportions 来确保结果吗?
没有任何明智的方法。 这样做会在 model 中产生奇怪的偏差。 你可以做的一件事是接受不太可能的结果,只有它有足够高的分数。 通常您会使用 0.5 阈值,但在这里您可能会使用例如 0.7。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.