簡體   English   中英

機器學習,其中訓練數據的標簽可能不是100%准確的

[英]Machine learning where labelling of training data might not be 100% accurate

我有一個數據集,其中包含患有糖尿病的人和沒有糖尿病的人。 使用這些數據,我想訓練一個模型來計算患有未知糖尿病狀態的人的風險概率。 我知道,在培訓中未被診斷出患有糖尿病的大多數人都沒有糖尿病,但是其中一些人可能患有未被診斷出的糖尿病。

這似乎呈現出一個陷阱22的情況。 我想識別處於危險中或可能未診斷出糖尿病的人,但是我知道我的訓練數據集中的某些人由於尚未被診斷為而被錯誤地標記為沒有糖尿病。 有沒有人遇到過這樣的問題? 如果僅占一小部分數據,是否仍可以基於某些標簽錯誤的數據繼續進行操作?

可能有幾種方法可以解決您的問題。

首先-畢竟這可能不是問題。 如果貼錯標簽的數據只占訓練集的一小部分,那就沒關系了。 實際上,在某些情況下,添加錯誤標簽的數據或僅隨機噪聲會提高分類器的魯棒性和泛化能力。

其次-您可能想使用訓練集來訓練分類器,然后檢查分類器給出錯誤分類的數據點。 分類器實際上可能是正確的,並將您定向到標簽錯誤的數據。 如果可能的話,可以隨后手動檢查此數據。

第三-您可以使用共識過濾器之類的方法預先過濾數據。 本文可能是開始進行以下主題研究的好方法: 標識錯誤標簽的訓練數據-CE Brody和MA Friedl

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM