繁体 English 中英

Tesseract或任何其他OCR库

[英]Tesseract or any other OCR lib

原文 2010-11-30 13:04:30 0 2 c++/ ocr/ image-recognition/ tesseract

我正在寻找一个解释/ API doc /如何在C ++中使用（和训练？）Tesseract的例子，在google Tesseract页面上没什么用处，还能在网上找到一些东西。

任何有用的资源，经验都会受到欢迎，因为我不知道如何开始。

PS：

我对其他图书馆的建议持开放态度。
只有免费图书馆

2 个解决方案

我有一些Tesseract的经验...一个简单的谷歌'培训tesseract'揭示了这个页面： http ： //code.google.com/p/tesseract-ocr/wiki/TrainingTesseract你必须在哪里选择你想要的tesseract版本培训..虽然3是最新版本，但它是全新的，因此人们仍在解决任何问题 - 我仍然使用2.4版本。 无论如何，你会发现训练tesseract有大约9个步骤用于特定的“语言”（或者应该被称为'fonts'或'character-sets'）。 您也可以使用现有的'eng'语言 - 但这取决于您的应用程序。 例如，在我的应用程序中，我将不得不进行文档分析并占用一个特定的区域，并希望OCR一个13个字符的数字字符串 - 我需要高精度 - 我不希望它读'5'为' S'和'0'为'O'等，因此创建我的特定字体集的特定'语言'是合乎逻辑的，该字体集仅由字符0..9组成，而你可能不在乎你是否得到额外的'噪音

Tesseract Ocr是一个用于检测光学字符的开源库。 如果您使用的是visual studio，则只需要包含库文件。 如果您正在使用qt creator，那么您必须构建库以处理QT。 您需要使用CMakelist或Cmake Gui来构建库。 您可以访问链接Opencv Ocr build for Qt 5.4 mingw