Linux中的Python OCR模块？

Question

我想在linux中找到一个易于使用的OCR python模块，我找到了pytesser http://code.google.com/p/pytesser/ ，但它包含一个.exe可执行文件。

我尝试改变代码使用wine，它确实有效，但它太慢了，真的不是一个好主意。

是否有任何易用的Linux替代品？

Answer 1

你可以在一个函数中包装tesseract ：

import os
import tempfile
import subprocess

def ocr(path):
    temp = tempfile.NamedTemporaryFile(delete=False)

    process = subprocess.Popen(['tesseract', path, temp.name], stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
    process.communicate()

    with open(temp.name + '.txt', 'r') as handle:
        contents = handle.read()

    os.remove(temp.name + '.txt')
    os.remove(temp.name)

    return contents

如果您想要文档分段和更高级的功能，请试用OCRopus 。

Answer 2

除了Blender的答案，那只是执行Tesseract可执行文件，我想补充一点，OCR还有其他替代方案，也可以称为外部进程。

ABBYY命令行OCR实用程序： http ：//ocr4linux.com/en： start

它不是免费的，所以值得考虑的是，如果Tesseract准确性不足以完成您的任务，或者您需要更复杂的布局分析，或者您需要导出PDF，Word和其他文件。

更新：这里是ABBYY和tesseract准确性的比较： http ： //www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison

免责声明：我为ABBYY工作

Answer 3

python tesseract

http://code.google.com/p/python-tesseract

import cv2.cv as cv
import tesseract

api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

image=cv.LoadImage("eurotext.jpg", cv.CV_LOAD_IMAGE_GRAYSCALE)
tesseract.SetCvImage(image,api)
text=api.GetUTF8Text()
conf=api.MeanTextConf()

Answer 4

您应该尝试使用优秀的scikits.learn库进行机器学习。 你可以找到两个准备在这里和这里运行的代码。

Answer 5

你有很多选择。

正如其他人所指出的那样，一种方法是使用tesseract。 看起来现在有一堆包装器，所以最好的方法是快速搜索它。 这些天最常用的是：

另一个寻找类似引擎的有用网站是另类。 根据它们的一些基于Linux的系统是：

ABBYY
正方体
楔形的
Ocropus
GOCR

Linux中的Python OCR模块？

问题描述

5 个解决方案

解决方案1
16 已采纳 2011-04-27 05:56:37

解决方案2
11 2011-04-27 07:14:11

解决方案3
6 2012-08-13 18:06:45

解决方案4
1 2012-05-23 20:20:41

解决方案5
0 2014-11-20 17:09:01

Linux中的Python OCR模块？

问题描述

5 个解决方案

解决方案1 16 已采纳 2011-04-27 05:56:37

解决方案2 11 2011-04-27 07:14:11

解决方案3 6 2012-08-13 18:06:45

解决方案4 1 2012-05-23 20:20:41

解决方案5 0 2014-11-20 17:09:01

解决方案1
16 已采纳 2011-04-27 05:56:37

解决方案2
11 2011-04-27 07:14:11

解决方案3
6 2012-08-13 18:06:45

解决方案4
1 2012-05-23 20:20:41

解决方案5
0 2014-11-20 17:09:01