![](/img/trans.png)
[英]Detect if a PDF is created from a scanned document using OCR [pdfbox]
[英]How to detect OCR in a scanned Document with pdfbox 2.0.0?
問題:我有一個很大的文件夾,里面有很多子文件夾,里面有很多pdf。 其中一些已經在上面帶有OCR。 其中一些沒有。 因此,我想編寫一個Java程序來過濾掉非OCR PDF並將其復制到熱文件夾中。
我測試了20個文檔,它們的共同點是,如果使用編輯器打開它們,則可以找到單詞“ font”和OCR,而在非OCR中找不到。 我現在的問題是:如何使用PDFbox 2.0.0實施此檢查? 我發現的所有解決方案似乎都不適用於舊版本。 而且我無法在文檔中找到解決方案。 (這顯然是我的錯)
提前致謝。
這是查找字體是否在頁面頂層的方法:
PDDocument doc = PDDocument.load(new File(...));
PDPage page = doc.getPage(0); // 0 based
PDResources resources = page.getResources();
for (COSName fontName : resources.getFontNames())
{
System.out.println(fontName.getName());
}
doc.close();
回復:mkl建議,以下是提取文本的方法:
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1); // 1 based
stripper.setEndPage(1);
String extractedText = stripper.getText(doc);
System.out.println(extractedText);
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.