繁体   English   中英

如何在机器学习 model 中使用 test_proportion 数据?

[英]How can I use the test_proportion data in a machine learning model?

我有一个包含 4000 个 CNN 特征的数据,这是一个二元分类问题。 我所知道的测试数据是 1 和 0 的比例。如何告诉我的 model 使用比例数据预测测试标签? (就像有没有办法说为了达到这个比例,我会给这个实例0。)

如何使用它来提高准确性? 在我的情况下,训练数据主要由 1 (85%) 和 0(15%) 组成,但是在我的测试数据中,l 的比例为 (%38),因此它与训练数据有很大不同。

我在平衡数据方面做了一些工作,这很有帮助。 然而,我的 model 仍然预测几乎所有数据的 1。 它也可能由于适应问题而发生。

正如@birdwatch 建议的那样,我降低了 0 值的阈值并尝试增加预测中的 0 label 计数。

# Predicting the Test set results 
y_pred = classifier.predict_proba(X_test) 
threshold=0.3 
y_pred [:,0] = (y_pred [:,0] < threshold).astype('int') 

前班数如下:

 1 :   8906
 0 :   2968

现在更改阈值后

1 :  3221
0 :  8653

但是,还有其他方法可以使用 test_proportions 来确保结果吗?

没有任何明智的方法。 这样做会在 model 中产生奇怪的偏差。 你可以做的一件事是接受不太可能的结果,只有它有足够高的分数。 通常您会使用 0.5 阈值,但在这里您可能会使用例如 0.7。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM