機器學習中數據集的標注

Question

我對機器學習的一些基本概念有疑問。 我觀察到的示例僅作了簡要概述。為訓練系統，將特征向量作為輸入。 在監督學習的情況下，數據集被標記。 我對標簽感到困惑。 例如，如果我必須區分兩種類型的圖片，我將提供一個特征向量，並在輸出側進行測試，我將為A類型提供1，為B類型提供2。但是，如果我要提取感興趣的區域從圖像數據集中。 如何使用SVM標記數據以提取ROI。 我希望我能傳達我的困惑。 謝謝您的期待。

Answer 1

在諸如SVM的監督學習中，數據集應組成如下：

<i-th feature vector><i-th label>

i從1到訓練集中的模式數量（也包括示例或觀察值 ），因此這代表了訓練集中的一條記錄，可用於訓練SVM分類器。

因此，基本上，您有一個由此類元組組成的集合，如果確實只有2個標簽（二進制分類問題），則可以輕松使用SVM。 確實，借助訓練集和訓練標簽將可以對SVM模型進行訓練，並且一旦訓練階段完成，您就可以使用另一組（稱為驗證集或測試集），其結構與訓練集的結構相同，測試您的SVM的准確性。
換句話說，SVM工作流程的結構應如下：

使用訓練集和訓練標簽訓練SVM
使用上一步中訓練的模型預測驗證集的標簽
如果您知道實際的驗證標簽是什么，則可以將預測的標簽與實際的標簽進行匹配，並檢查已正確預測了多少個標簽。 正確預測的標簽數量與驗證集中的標簽總數之間的比率返回一個[0; 1]之間的標量，這被稱為SVM模型的准確性 。
如果您對ROI感興趣，則可能需要檢查訓練有素的SVM參數（主要是權重和偏差）以重建分離超平面

同樣重要的是要知道訓練集記錄應該正確，並帶有先驗標記 ：如果訓練標簽不正確，則SVM將永遠無法正確預測以前看不見的模式的輸出。 您不必根據要提取的ROI標記數據，數據必須先驗地正確標記：SVM將具有整套A類圖片和B類圖片集，並將了解決策邊界可以將類型A的圖片和類型B的圖片分開。您不必弄亂標簽：如果這樣做，就不必進行分類和/或機器學習和/或模式識別。 您基本上是在欺騙結果。

機器學習中數據集的標注

問題描述

1 個解決方案

解決方案1
0 2016-02-14 11:00:13

機器學習中數據集的標注

問題描述

1 個解決方案

解決方案1 0 2016-02-14 11:00:13

解決方案1
0 2016-02-14 11:00:13