簡體   English   中英

Tess4j - Pdf 到 Tiff 到 tesseract -“警告:無效分辨率 0 dpi。改用 70。”

[英]Tess4j - Pdf to Tiff to tesseract - "Warning: Invalid resolution 0 dpi. Using 70 instead."

我正在使用 tess4j (net.sourceforge.tess4j:tess4j:4.4.0) 並在 pdf 文件上嘗試 OCR。 因此,據我所知,我必須首先將 pdf 轉換為 tiff 或 png (任何建議?)我這樣做了:

tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile)); 

並得到以下警告:

Warning: Invalid resolution 0 dpi. Using 70 instead.

問題

  • 它對我的掃描結果有影響嗎? (如果沒有,好的 - 我可以關閉警告)
  • 有沒有辦法手動設置 DPI 或者convertPdf應該為我處理這個?

如果圖像元數據中沒有分辨率信息,Tesseract 會嘗試自行估計分辨率,以便可以在結果中計算字體大小信息。

您可以嘗試以下 API 來設置輸入圖像分辨率:

instance.SetTessVariable("user_defined_dpi", "300");

或者

TessBaseAPISetSourceResolution(TessBaseAPI handle, int ppi);

您可以通過以下方式抑制控制台 output:

instance.setTessVariable("debug_file", "/dev/null");

未設置默認分辨率。

為了補充 nguyenq 的回答:

instance.setTessVariable("user_defined_dpi", "300");

在 tess4j 的 5.4.0 版本中,

instance.setVariable("user_defined_dpi", "300");

代替

instance.SetTessVariable("user_defined_dpi", "300");

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM