簡體   English   中英

Ephesoft無法學習或提取某些tif圖像(並非所有圖像)

[英]Ephesoft can't learn or extract certain tif image (not all image)

我正在將Ephesoft社區版本4.0.2.0與tif圖像一起使用(由ephesoft測試),該問題是ephesoft可以對某些圖像進行分類或提取數據,但對於其他圖像他卻無法在文件日志中沒有錯誤消息,我現在不這樣做。

當我單擊學習文件時,HOCR和HTML生成的文件為空,沒有數據,只是像這樣的元數據:

Application_Checklist_HOCR.xml:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<HocrPages<HocrPage>
<Title></Title><Spans/>
<HocrContent></HocrContent>
</HocrPage></HocrPages>

但是對於e-soft-US-invoice_HOCR.xml,ephesoft可以學習,文件看起來像這樣:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage>

<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0>

<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span>

<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1>

</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0>

<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span>

<Value>lnvoice</Value><Coordinates>............

您可以在/Path-To-Ephesoft/Application/WEB-INF/classes/META-INF/dcma-tesseract/tesseract-‌reader.properties中修改tesseract配置文件並注釋此行#tesseract.command_parameters = -psm 4讓tesseract使用默認細分。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM