[英]Ephesoft error with learning tiff documents that have been converted from PDF
我在AWS实例的Windows Server 2003上使用Ephesoft社区版。 我在使用ephesoft读取某些tiff文档时遇到问题。 我有大约100个不同的tiff文档,其中大约70%有效。 这些tiff文档最初是PDF文档,我们已经使用最新版本的ghostscript对其进行了转换,并使用了ephesoft的imagemagick对其进行了清理。 我们将以下命令与ghostscript一起使用
-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH
使用imagemagick我们正在执行以下命令
-压缩组4
当学习无法使用的tiff文件之一时,我们在日志文件中收到以下错误
这是我们试图让Ephesoft学习的Tiff文档之一
我可以使用ghostscript,imagemagick或任何其他软件来解决此问题吗? 还是我需要以某种方式修改Ephesoft?
我通过做更多的研究找到了解决方案。
问题不涉及Ghostscript或Imagmagick。 它涉及Tesseract和创建HOCR文件。 当Tesseract创建hocr文件时,它会将Texas的值解析为Te>。 Ephesoft的社区版本无法像这样处理特殊的xml字符,结果将引发错误。
解决方案是将Tesseract属性设置为将<>符号列入黑名单,以使Tesseract不包含这些符号或将其解析为。 我的PDF现在似乎可以正常工作,我可以对其进行处理。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.