如何在机器学习 model 中使用 test_proportion 数据？

Question

我有一个包含 4000 个 CNN 特征的数据，这是一个二元分类问题。 我所知道的测试数据是 1 和 0 的比例。如何告诉我的 model 使用比例数据预测测试标签？ （就像有没有办法说为了达到这个比例，我会给这个实例0。）

如何使用它来提高准确性？ 在我的情况下，训练数据主要由 1 (85%) 和 0(15%) 组成，但是在我的测试数据中，l 的比例为 (%38)，因此它与训练数据有很大不同。

我在平衡数据方面做了一些工作，这很有帮助。 然而，我的 model 仍然预测几乎所有数据的 1。 它也可能由于适应问题而发生。

正如@birdwatch 建议的那样，我降低了 0 值的阈值并尝试增加预测中的 0 label 计数。

# Predicting the Test set results 
y_pred = classifier.predict_proba(X_test) 
threshold=0.3 
y_pred [:,0] = (y_pred [:,0] < threshold).astype('int')

前班数如下：

 1 :   8906
 0 :   2968

现在更改阈值后

1 :  3221
0 :  8653

但是，还有其他方法可以使用 test_proportions 来确保结果吗？

Answer 1

没有任何明智的方法。 这样做会在 model 中产生奇怪的偏差。 你可以做的一件事是接受不太可能的结果，只有它有足够高的分数。 通常您会使用 0.5 阈值，但在这里您可能会使用例如 0.7。