[英]How can I use the test_proportion data in a machine learning model?
我有一個包含 4000 個 CNN 特征的數據,這是一個二元分類問題。 我所知道的測試數據是 1 和 0 的比例。如何告訴我的 model 使用比例數據預測測試標簽? (就像有沒有辦法說為了達到這個比例,我會給這個實例0。)
如何使用它來提高准確性? 在我的情況下,訓練數據主要由 1 (85%) 和 0(15%) 組成,但是在我的測試數據中,l 的比例為 (%38),因此它與訓練數據有很大不同。
我在平衡數據方面做了一些工作,這很有幫助。 然而,我的 model 仍然預測幾乎所有數據的 1。 它也可能由於適應問題而發生。
正如@birdwatch 建議的那樣,我降低了 0 值的閾值並嘗試增加預測中的 0 label 計數。
# Predicting the Test set results
y_pred = classifier.predict_proba(X_test)
threshold=0.3
y_pred [:,0] = (y_pred [:,0] < threshold).astype('int')
前班數如下:
1 : 8906
0 : 2968
現在更改閾值后
1 : 3221
0 : 8653
但是,還有其他方法可以使用 test_proportions 來確保結果嗎?
沒有任何明智的方法。 這樣做會在 model 中產生奇怪的偏差。 你可以做的一件事是接受不太可能的結果,只有它有足夠高的分數。 通常您會使用 0.5 閾值,但在這里您可能會使用例如 0.7。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.