[英]Tess4j - Pdf to Tiff to tesseract - "Warning: Invalid resolution 0 dpi. Using 70 instead."
我正在使用 tess4j (net.sourceforge.tess4j:tess4j:4.4.0) 並在 pdf 文件上嘗試 OCR。 因此,據我所知,我必須首先將 pdf 轉換為 tiff 或 png (任何建議?)我這樣做了:
tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile));
並得到以下警告:
Warning: Invalid resolution 0 dpi. Using 70 instead.
問題
convertPdf
應該為我處理這個?如果圖像元數據中沒有分辨率信息,Tesseract 會嘗試自行估計分辨率,以便可以在結果中計算字體大小信息。
您可以嘗試以下 API 來設置輸入圖像分辨率:
instance.SetTessVariable("user_defined_dpi", "300");
或者
TessBaseAPISetSourceResolution(TessBaseAPI handle, int ppi);
您可以通過以下方式抑制控制台 output:
instance.setTessVariable("debug_file", "/dev/null");
未設置默認分辨率。
為了補充 nguyenq 的回答:
instance.setTessVariable("user_defined_dpi", "300");
在 tess4j 的 5.4.0 版本中,
instance.setVariable("user_defined_dpi", "300");
代替instance.SetTessVariable("user_defined_dpi", "300");
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.