簡體 English 中英

為機器學習模型創建帶標簽的圖像數據集

[英]Create labeled image dataset for machine learning models

原文 2018-10-17 06:56:31 9 1 python/ machine-learning

我的問題是關於如何為機器學習創建帶標簽的圖像數據集？

我一直在使用已經可用的數據集，因此我在如何標記圖像數據集方面面臨困難（就像我們在貓與狗分類中一樣）。

我必須做標簽以及圖像分割，在互聯網上搜索后，我發現一些手動標簽工具，例如LabelMe和LabelBox。LabelMe很好，但是它以XML文件的形式返回輸出。

現在我再次關心的是如何將XML文件輸入到神經網絡中？ 我一點都不擅長圖像處理任務，因此我需要一個替代建議。

編輯：我已經掃描了學位證書和普通文檔的副本，我必須創建一個分類器，將學位證書分類為1，將非學位證書分類為0。所以我的標簽將是：
學位證書-> y（1）
非學位證書-> y（0）

1 個解決方案

您不會將XML文件輸入神經網絡。 您可以使用XML解析器對其進行處理，然后使用該解析器提取標簽。 請參閱問題如何在Python中解析XML？ 以獲取有關其工作原理的建議。

圖像數據集可以有多種初始狀態。 例如，有時圖像位於代表其類別的文件夾中。 如果您想使用這種方法，那么與其在每次培訓時都直接讀取XML文件，不如使用它來以您喜歡或習慣的形式創建數據集。 您在網上找到許多不錯的現成數據集的原因是因為其他人確實做到了這一點。 這是值得做的，因為您不必再重復從原始數據進行的所有轉換就可以開始訓練模型。

例如，從LabelMe收集XML數據，然后使用簡短的腳本讀取XML文件，提取先前使用ElementTree輸入的標簽，然后將圖像復制到正確的文件夾中。 最后，您將獲得一個數據集，該數據集由帶有正負匹配圖像的兩個文件夾組成，可以使用您喜歡的CNN圖像處理包進行處理。