簡體   English   中英

Ephesoft錯誤,學習從PDF轉換的TIFF文檔

[英]Ephesoft error with learning tiff documents that have been converted from PDF

我在AWS實例的Windows Server 2003上使用Ephesoft社區版。 我在使用ephesoft讀取某些tiff文檔時遇到問題。 我有大約100個不同的tiff文檔,其中大約70%有效。 這些tiff文檔最初是PDF文檔,我們已經使用最新版本的ghostscript對其進行了轉換,並使用了ephesoft的imagemagick對其進行了清理。 我們將以下命令與ghostscript一起使用

-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH

使用imagemagick我們正在執行以下命令

-壓縮組4

當學習無法使用的tiff文件之一時,我們在日志文件中收到以下錯誤

投遞箱鏈接到堆棧跟蹤

這是我們試圖讓Ephesoft學習的Tiff文檔之一

投遞箱鏈接到Tiff文檔

我可以使用ghostscript,imagemagick或任何其他軟件來解決此問題嗎? 還是我需要以某種方式修改Ephesoft?

我通過做更多的研究找到了解決方案。

問題不涉及Ghostscript或Imagmagick。 它涉及Tesseract和創建HOCR文件。 當Tesseract創建hocr文件時,它會將Texas的值解析為Te>。 Ephesoft的社區版本無法像這樣處理特殊的xml字符,結果將引發錯誤。

解決方案是將Tesseract屬性設置為將<>符號列入黑名單,以使Tesseract不包含這些符號或將其解析為。 我的PDF現在似乎可以正常工作,我可以對其進行處理。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM