簡體 English 中英

是否可以使用OCR Engine識別Micr字體？

[英]Recognize Micr font using OCR Engine?

原文 2016-08-08 08:17:34 5 2 windows-runtime/ windows-phone/ ocr/ microsoft-ocr

我正在使用Microsoft OCR庫讀取文本。

Microsoft OCR庫可以完美運行。 但是，我想閱讀鏈接http://www.ict4u.net/databases/database-images/micr.jpg中給出的以下字符列表。 有沒有一種方法可以訓練OCR庫讀取以下字符，或者是否有允許讀取以下字符的語言。

2 個解決方案

[Microsoft OCR工作人員在這里]我們尚不支持培訓OCR以針對您的用例進行自定義。 但是，我們確實會密切關注stackoverflow以了解開發人員的需求，因此我們可以不斷改進OCR引擎。

我已經使用Microsoft OCR已有一段時間了。 與Tesseract相比，它具有非常基本的功能。

例如，Microsoft OCR返回單詞和行。 但是這些話是胡說八道。 隨機將2個或3個單詞組合為一條“線”，但它們不是實線。 而且“行”是完全無序的。 在這方面，它比Tesseract差。 您必須獲取每個單詞的坐標並自行排序。

Microsoft不返回字符的矩形，並且絕對沒有任何方式可以配置或訓練Microsoft OCR。 您可以使用Windows Update的“基本鍵入” = OCR添加語言（請參見http://www.thewindowsclub.com/install-uninstall-languages-windows-10 ），但是您不能訓練自己的語言數據。

MSDN表示支持以下25種語言，但准確性不同：

優秀：捷克語，丹麥語，荷蘭語，英語，芬蘭語，法語，德語，匈牙利語，意大利語，挪威語，波蘭語，葡萄牙語，羅馬尼亞語，塞爾維亞西里爾字母，塞爾維亞拉丁語，斯洛伐克語，西班牙語和瑞典語。
很好：簡體中文，希臘文，日文，俄文和土耳其文。
好：繁體中文和韓文。

識別質量與Tesseract非常相似。 它甚至具有與Tesseract完全相同的問題。 某些單個字符無法識別（單獨的符號，如單個“ $”），並且與Tesseract一樣，它在星號方面也存在巨大的問題。 它也會像Tesseract一樣在錯誤的位置插入空格。 所以我問自己微軟是否在后台使用Tesseract？

但是，Microsoft OCR優於Tesseract：圖像預處理要好得多。 在黃色背景上有紅色文本還是在黑色上有白色文本都沒有關系。 這是Tesseract的收獲，需要高質量的黑白圖像作為輸入。

對於兩個OCR庫都適用：如果遇到識別問題，請嘗試放大圖像。 即使模糊圖像也可能非常令人討厭，因為這樣可以消除圖像中的噪點。