[英]Recognize Micr font using OCR Engine?
我正在使用Microsoft OCR庫讀取文本。
Microsoft OCR庫可以完美運行。 但是,我想閱讀鏈接http://www.ict4u.net/databases/database-images/micr.jpg中給出的以下字符列表。 有沒有一種方法可以訓練OCR庫讀取以下字符,或者是否有允許讀取以下字符的語言。
[Microsoft OCR工作人員在這里]我們尚不支持培訓OCR以針對您的用例進行自定義。 但是,我們確實會密切關注stackoverflow以了解開發人員的需求,因此我們可以不斷改進OCR引擎。
我已經使用Microsoft OCR已有一段時間了。 與Tesseract相比,它具有非常基本的功能。
例如,Microsoft OCR返回單詞和行。 但是這些話是胡說八道。 隨機將2個或3個單詞組合為一條“線”,但它們不是實線。 而且“行”是完全無序的。 在這方面,它比Tesseract差。 您必須獲取每個單詞的坐標並自行排序。
Microsoft不返回字符的矩形,並且絕對沒有任何方式可以配置或訓練Microsoft OCR。 您可以使用Windows Update的“基本鍵入” = OCR添加語言(請參見http://www.thewindowsclub.com/install-uninstall-languages-windows-10 ),但是您不能訓練自己的語言數據。
MSDN表示支持以下25種語言,但准確性不同:
識別質量與Tesseract非常相似。 它甚至具有與Tesseract完全相同的問題。 某些單個字符無法識別(單獨的符號,如單個“ $”),並且與Tesseract一樣,它在星號方面也存在巨大的問題。 它也會像Tesseract一樣在錯誤的位置插入空格。 所以我問自己微軟是否在后台使用Tesseract?
但是,Microsoft OCR優於Tesseract:圖像預處理要好得多。 在黃色背景上有紅色文本還是在黑色上有白色文本都沒有關系。 這是Tesseract的收獲,需要高質量的黑白圖像作為輸入。
對於兩個OCR庫都適用:如果遇到識別問題,請嘗試放大圖像。 即使模糊圖像也可能非常令人討厭,因為這樣可以消除圖像中的噪點。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.