簡體   English   中英

如何在機器學習 model 中使用 test_proportion 數據?

[英]How can I use the test_proportion data in a machine learning model?

我有一個包含 4000 個 CNN 特征的數據,這是一個二元分類問題。 我所知道的測試數據是 1 和 0 的比例。如何告訴我的 model 使用比例數據預測測試標簽? (就像有沒有辦法說為了達到這個比例,我會給這個實例0。)

如何使用它來提高准確性? 在我的情況下,訓練數據主要由 1 (85%) 和 0(15%) 組成,但是在我的測試數據中,l 的比例為 (%38),因此它與訓練數據有很大不同。

我在平衡數據方面做了一些工作,這很有幫助。 然而,我的 model 仍然預測幾乎所有數據的 1。 它也可能由於適應問題而發生。

正如@birdwatch 建議的那樣,我降低了 0 值的閾值並嘗試增加預測中的 0 label 計數。

# Predicting the Test set results 
y_pred = classifier.predict_proba(X_test) 
threshold=0.3 
y_pred [:,0] = (y_pred [:,0] < threshold).astype('int') 

前班數如下:

 1 :   8906
 0 :   2968

現在更改閾值后

1 :  3221
0 :  8653

但是,還有其他方法可以使用 test_proportions 來確保結果嗎?

沒有任何明智的方法。 這樣做會在 model 中產生奇怪的偏差。 你可以做的一件事是接受不太可能的結果,只有它有足夠高的分數。 通常您會使用 0.5 閾值,但在這里您可能會使用例如 0.7。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM