簡體   English   中英

機器學習中數據集的標注

[英]labelling of dataset in machine learning

我對機器學習的一些基本概念有疑問。 我觀察到的示例僅作了簡要概述。為訓練系統,將特征向量作為輸入。 在監督學習的情況下,數據集被標記。 我對標簽感到困惑。 例如,如果我必須區分兩種類型的圖片,我將提供一個特征向量,並在輸出側進行測試,我將為A類型提供1,為B類型提供2。但是,如果我要提取感興趣的區域從圖像數據集中。 如何使用SVM標記數據以提取ROI。 我希望我能傳達我的困惑。 謝謝您的期待。

在諸如SVM的監督學習中,數據集應組成如下:

<i-th feature vector><i-th label>

i從1到訓練集中的模式數量(也包括示例觀察值 ),因此這代表了訓練集中的一條記錄,可用於訓練SVM分類器。

因此,基本上,您有一個由此類元組組成的集合,如果確實只有2個標簽(二進制分類問題),則可以輕松使用SVM。 確實,借助訓練集和訓練標簽將可以對SVM模型進行訓練,並且一旦訓練階段完成,您就可以使用另一組(稱為驗證集或測試集),其結構與訓練集的結構相同,測試您的SVM的准確性。
換句話說,SVM工作流程的結構應如下:

  1. 使用訓練集和訓練標簽訓練SVM
  2. 使用上一步中訓練的模型預測驗證集的標簽
  3. 如果您知道實際的驗證標簽是什么,則可以將預測的標簽與實際的標簽進行匹配,並檢查已正確預測了多少個標簽。 正確預測的標簽數量與驗證集中的標簽總數之間的比率返回一個[0; 1]之間的標量,這被稱為SVM模型的准確性
  4. 如果您對ROI感興趣,則可能需要檢查訓練有素的SVM參數(主要是權重和偏差)以重建分離超平面

同樣重要的是要知道訓練集記錄應該正確,並帶有先驗標記 :如果訓練標簽不正確,則SVM將永遠無法正確預測以前看不見的模式的輸出。 您不必根據要提取的ROI標記數據,數據必須先驗地正確標記:SVM將具有整套A類圖片和B類圖片集,並將了解決策邊界可以將類型A的圖片和類型B的圖片分開。您不必弄亂標簽:如果這樣做,就不必進行分類和/或機器學習和/或模式識別。 您基本上是在欺騙結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM