如何使用pdfbox 2.0.0在掃描的文檔中檢測OCR？

Question

問題：我有一個很大的文件夾，里面有很多子文件夾，里面有很多pdf。 其中一些已經在上面帶有OCR。 其中一些沒有。 因此，我想編寫一個Java程序來過濾掉非OCR PDF並將其復制到熱文件夾中。

我測試了20個文檔，它們的共同點是，如果使用編輯器打開它們，則可以找到單詞“ font”和OCR，而在非OCR中找不到。 我現在的問題是：如何使用PDFbox 2.0.0實施此檢查？ 我發現的所有解決方案似乎都不適用於舊版本。 而且我無法在文檔中找到解決方案。 （這顯然是我的錯）

提前致謝。

Answer 1

這是查找字體是否在頁面頂層的方法：

    PDDocument doc = PDDocument.load(new File(...));
    PDPage page = doc.getPage(0); // 0 based
    PDResources resources = page.getResources();
    for (COSName fontName : resources.getFontNames())
    {
        System.out.println(fontName.getName());
    }
    doc.close();

回復：mkl建議，以下是提取文本的方法：

    PDFTextStripper stripper = new PDFTextStripper();
    stripper.setStartPage(1); // 1 based
    stripper.setEndPage(1);
    String extractedText = stripper.getText(doc);
    System.out.println(extractedText);

如何使用pdfbox 2.0.0在掃描的文檔中檢測OCR？

問題描述

1 個解決方案

解決方案1
2 已采納 2015-11-10 09:12:47

如何使用pdfbox 2.0.0在掃描的文檔中檢測OCR？

問題描述

1 個解決方案

解決方案1 2 已采納 2015-11-10 09:12:47

解決方案1
2 已采納 2015-11-10 09:12:47