繁体   English   中英

如何在tess4j版本4.1。*中将字符列入白名单

[英]How to whitelist characters in tess4j version 4.1.*

目的是从图像中读取数字特定的数据(1,2,...,9,0)。 为此,我使用的是Tess4j 4.1.1版。

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.1.1</version>
</dependency>

我的示例代码如下:

ImageIO.read(new File("c:\\temp\\number1.jpg"));
ITesseract instance = new Tesseract();
instance.doOCR(img);

但是由于某种原因,它把一些数字误认为是字母。 因此,为了最大程度地减少错误,我只需要将数字列入白名单。

由于这在早期版本Tess4j(3.0。**)用有可能TessBaseAPI ,但在目前的4.1。*版本是不可用的。 有人可以在这里帮助我,如何在TessAPI 4.1。*及更高版本中设置白名单字符?

自Tesseract 4.00-alpha起,该功能已损坏。 尚未修复。

https://github.com/tesseract-ocr/tesseract/issues/751

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM