繁体   English   中英

Ephesoft错误,学习从PDF转换的TIFF文档

[英]Ephesoft error with learning tiff documents that have been converted from PDF

我在AWS实例的Windows Server 2003上使用Ephesoft社区版。 我在使用ephesoft读取某些tiff文档时遇到问题。 我有大约100个不同的tiff文档,其中大约70%有效。 这些tiff文档最初是PDF文档,我们已经使用最新版本的ghostscript对其进行了转换,并使用了ephesoft的imagemagick对其进行了清理。 我们将以下命令与ghostscript一起使用

-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH

使用imagemagick我们正在执行以下命令

-压缩组4

当学习无法使用的tiff文件之一时,我们在日志文件中收到以下错误

投递箱链接到堆栈跟踪

这是我们试图让Ephesoft学习的Tiff文档之一

投递箱链接到Tiff文档

我可以使用ghostscript,imagemagick或任何其他软件来解决此问题吗? 还是我需要以某种方式修改Ephesoft?

我通过做更多的研究找到了解决方案。

问题不涉及Ghostscript或Imagmagick。 它涉及Tesseract和创建HOCR文件。 当Tesseract创建hocr文件时,它会将Texas的值解析为Te>。 Ephesoft的社区版本无法像这样处理特殊的xml字符,结果将引发错误。

解决方案是将Tesseract属性设置为将<>符号列入黑名单,以使Tesseract不包含这些符号或将其解析为。 我的PDF现在似乎可以正常工作,我可以对其进行处理。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM