簡體   English   中英

是否可以使用OCR Engine識別Micr字體?

[英]Recognize Micr font using OCR Engine?

我正在使用Microsoft OCR庫讀取文本。

Microsoft OCR庫可以完美運行。 但是,我想閱讀鏈接http://www.ict4u.net/databases/database-images/micr.jpg中給出的以下字符列表。 有沒有一種方法可以訓練OCR庫讀取以下字符,或者是否有允許讀取以下字符的語言。

[Microsoft OCR工作人員在這里]我們尚不支持培訓OCR以針對您的用例進行自定義。 但是,我們確實會密切關注stackoverflow以了解開發人員的需求,因此我們可以不斷改進OCR引擎。

我已經使用Microsoft OCR已有一段時間了。 與Tesseract相比,它具有非常基本的功能。

例如,Microsoft OCR返回單詞和行。 但是這些話是胡說八道。 隨機將2個或3個單詞組合為一條“線”,但它們不是實線。 而且“行”是完全無序的。 在這方面,它比Tesseract差。 您必須獲取每個單詞的坐標並自行排序。

Microsoft不返回字符的矩形,並且絕對沒有任何方式可以配置或訓練Microsoft OCR。 您可以使用Windows Update的“基本鍵入” = OCR添加語言(請參見http://www.thewindowsclub.com/install-uninstall-languages-windows-10 ),但是您不能訓練自己的語言數據。

MSDN表示支持以下25種語言,但准確性不同:

  • 優秀:捷克語,丹麥語,荷蘭語,英語,芬蘭語,法語,德語,匈牙利語,意大利語,挪威語,波蘭語,葡萄牙語,羅馬尼亞語,塞爾維亞西里爾字母,塞爾維亞拉丁語,斯洛伐克語,西班牙語和瑞典語。
  • 很好:簡體中文,希臘文,日文,俄文和土耳其文。
  • 好:繁體中文和韓文。

識別質量與Tesseract非常相似。 它甚至具有與Tesseract完全相同的問題。 某些單個字符無法識別(單獨的符號,如單個“ $”),並且與Tesseract一樣,它在星號方面也存在巨大的問題。 它也會像Tesseract一樣在錯誤的位置插入空格。 所以我問自己微軟是否在后台使用Tesseract?

但是,Microsoft OCR優於Tesseract:圖像預處理要好得多。 在黃色背景上有紅色文本還是在黑色上有白色文本都沒有關系。 這是Tesseract的收獲,需要高質量的黑白圖像作為輸入。

對於兩個OCR庫都適用:如果遇到識別問題,請嘗試放大圖像。 即使模糊圖像也可能非常令人討厭,因為這樣可以消除圖像中的噪點。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM