[英]How to perform positive unlabeled learning using a binary classifier?
我在 pyspark 中設置了一個裝袋分類器,其中一個二元分類器對正樣本和相同數量的隨機抽樣未標記樣本進行訓練(給定分數為 1 表示正,0 表示未標記)。 model 然后預測袋外樣本,這個過程重復,所以現在我計划對每個樣本進行平均預測。
我的問題出現在 output model 預測中例如,用於二進制分類的 output 如下所示:
model.transform(test_data).show()
+-----+--------------------+
|label| probability|
+-----+--------------------+
| 0|[0.294, 0.8] |
| 1|[0.65, 0.2 ] |
要從輸出此結果的二元分類器執行未標記的正學習,我是否需要放棄為負 class 預測的概率,並且僅使用 model 對未標記樣本是否為正所做的預測?
是的。 您為每個未標記數據獲得的概率是該點為正的概率,因為 model 獲得了收益。 然后你在迭代中取平均值
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.