如何从PDF文件中删除所有图像/图形，而只保留Java中的文本？

Question

我有一个PDF文件，该文件是OCR处理器的输出，该OCR处理器可以识别图像，将文本添加到pdf中，但是最后放置的是低质量图像，而不是原始图像（我不知道为什么有人会这样做，但确实如此）。

因此，我想获取此PDF，删除图像流并保留文本，这样我就可以获取它并将其（使用iText页面导入功能）导入到PDF中，然后使用真实图像创建自己。

在有人问之前，我已经尝试使用另一种工具来提取文本坐标（JPedal），但是当我在PDF上绘制文本时，它与原始位置不在同一位置。

我宁愿用Java完成此操作，但是如果另一个工具可以做得更好，请告诉我。 而且它可能只是图像去除，我可以使用其中包含图纸的PDF。

Answer 1

我在类似情况下使用Apache PDFBox。

要更具体一点，请尝试如下操作：

import org.apache.pdfbox.exceptions.COSVisitorException;
import org.apache.pdfbox.exceptions.CryptographyException;
import org.apache.pdfbox.exceptions.InvalidPasswordException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentCatalog;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import java.io.IOException;

public class Main {
    public static void main(String[] argv) throws COSVisitorException, InvalidPasswordException, CryptographyException, IOException {
        PDDocument document = PDDocument.load("input.pdf");

        if (document.isEncrypted()) {
            document.decrypt("");
        }

        PDDocumentCatalog catalog = document.getDocumentCatalog();
        for (Object pageObj :  catalog.getAllPages()) {
            PDPage page = (PDPage) pageObj;
            PDResources resources = page.findResources();
            resources.getImages().clear();
        }

        document.save("strippedOfImages.pdf");
    }
}

应该删除所有类型的图像（png，jpeg，...）。 它应该像这样工作：

。

Answer 2

您需要按以下方式分析文档：

public static void strip(String pdfFile, String pdfFileOut) throws Exception {

    PDDocument doc = PDDocument.load(pdfFile);

    List pages = doc.getDocumentCatalog().getAllPages();
    for( int i=0; i<pages.size(); i++ ) {
        PDPage page = (PDPage)pages.get( i );

        // added
        COSDictionary newDictionary = new COSDictionary(page.getCOSDictionary());

        PDFStreamParser parser = new PDFStreamParser(page.getContents());
        parser.parse();
        List tokens = parser.getTokens();
        List newTokens = new ArrayList();
        for(int j=0; j<tokens.size(); j++) {
            Object token = tokens.get( j );

            if( token instanceof PDFOperator ) {
                PDFOperator op = (PDFOperator)token;
                if( op.getOperation().equals( "Do") ) {
                    //remove the one argument to this operator
                    // added
                    COSName name = (COSName)newTokens.remove( newTokens.size() -1 );
                    // added
                    deleteObject(newDictionary, name);
                    continue;
                }
            }
            newTokens.add( token );
        }
        PDStream newContents = new PDStream( doc );
        ContentStreamWriter writer = new ContentStreamWriter( newContents.createOutputStream() );
        writer.writeTokens( newTokens );
        newContents.addCompression();

        page.setContents( newContents );

        // added
        PDResources newResources = new PDResources(newDictionary);
        page.setResources(newResources);
    }

    doc.save(pdfFileOut);
    doc.close();
}


// added
public static boolean deleteObject(COSDictionary d, COSName name) {
    for(COSName key : d.keySet()) {
        if( name.equals(key) ) {
            d.removeItem(key);
            return true;
        }
        COSBase object = d.getDictionaryObject(key); 
        if(object instanceof COSDictionary) {
            if( deleteObject((COSDictionary)object, name) ) {
                return true;
            }
        }
    }
    return false;
}

如何从PDF文件中删除所有图像/图形，而只保留Java中的文本？

问题描述

2 个解决方案

解决方案1
15 已采纳 2011-07-31 21:24:48

解决方案2
5 2013-05-29 11:50:37

如何从PDF文件中删除所有图像/图形，而只保留Java中的文本？

问题描述

2 个解决方案

解决方案1 15 已采纳 2011-07-31 21:24:48

解决方案2 5 2013-05-29 11:50:37

解决方案1
15 已采纳 2011-07-31 21:24:48

解决方案2
5 2013-05-29 11:50:37