簡體 English 中英

機器學習，其中訓練數據的標簽可能不是100％准確的

[英]Machine learning where labelling of training data might not be 100% accurate

原文 2018-05-21 19:33:50 7 1 machine-learning/ training-data

我有一個數據集，其中包含患有糖尿病的人和沒有糖尿病的人。 使用這些數據，我想訓練一個模型來計算患有未知糖尿病狀態的人的風險概率。 我知道，在培訓中未被診斷出患有糖尿病的大多數人都沒有糖尿病，但是其中一些人可能患有未被診斷出的糖尿病。

這似乎呈現出一個陷阱22的情況。 我想識別處於危險中或可能未診斷出糖尿病的人，但是我知道我的訓練數據集中的某些人由於尚未被診斷為而被錯誤地標記為沒有糖尿病。 有沒有人遇到過這樣的問題？ 如果僅占一小部分數據，是否仍可以基於某些標簽錯誤的數據繼續進行操作？

可能有幾種方法可以解決您的問題。

首先-畢竟這可能不是問題。 如果貼錯標簽的數據只占訓練集的一小部分，那就沒關系了。 實際上，在某些情況下，添加錯誤標簽的數據或僅隨機噪聲會提高分類器的魯棒性和泛化能力。

其次-您可能想使用訓練集來訓練分類器，然后檢查分類器給出錯誤分類的數據點。 分類器實際上可能是正確的，並將您定向到標簽錯誤的數據。 如果可能的話，可以隨后手動檢查此數據。

第三-您可以使用共識過濾器之類的方法預先過濾數據。 本文可能是開始進行以下主題研究的好方法：標識錯誤標簽的訓練數據-CE Brody和MA Friedl 。

[英]labelling of dataset in machine learning

[英]Collecting Machine learning training data

[英]Training and testing data in machine learning

[英]Preprocessing machine learning training data

[英]Azure Machine Learning Studio Conditional Training Data

[英]Applying machine learning to training data parameters

[英]Machine learning training data and query with unknown values

[英]Machine learning - introducing a bias in training data

[英]Machine learning: training model from test data

[英]Machine Learning - Feature selection and training data

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 機器學習中數據集的標注收集機器學習訓練數據在機器學習中訓練和測試數據預處理機器學習訓練數據 Azure Machine Learning Studio條件培訓數據將機器學習應用於訓練數據參數機器學習訓練數據和未知值查詢機器學習-在訓練數據中引入偏見機器學習：來自測試數據的訓練模型機器學習-特征選擇和訓練數據

相關標簽