如何在機器學習 model 中使用 test_proportion 數據？

Question

我有一個包含 4000 個 CNN 特征的數據，這是一個二元分類問題。 我所知道的測試數據是 1 和 0 的比例。如何告訴我的 model 使用比例數據預測測試標簽？ （就像有沒有辦法說為了達到這個比例，我會給這個實例0。）

如何使用它來提高准確性？ 在我的情況下，訓練數據主要由 1 (85%) 和 0(15%) 組成，但是在我的測試數據中，l 的比例為 (%38)，因此它與訓練數據有很大不同。

我在平衡數據方面做了一些工作，這很有幫助。 然而，我的 model 仍然預測幾乎所有數據的 1。 它也可能由於適應問題而發生。

正如@birdwatch 建議的那樣，我降低了 0 值的閾值並嘗試增加預測中的 0 label 計數。

# Predicting the Test set results 
y_pred = classifier.predict_proba(X_test) 
threshold=0.3 
y_pred [:,0] = (y_pred [:,0] < threshold).astype('int')

前班數如下：

 1 :   8906
 0 :   2968

現在更改閾值后

1 :  3221
0 :  8653

但是，還有其他方法可以使用 test_proportions 來確保結果嗎？

Answer 1

沒有任何明智的方法。 這樣做會在 model 中產生奇怪的偏差。 你可以做的一件事是接受不太可能的結果，只有它有足夠高的分數。 通常您會使用 0.5 閾值，但在這里您可能會使用例如 0.7。