Pdf矿工如何提取图片

Question

我正在尝试使用pdfminer.six从 PDF 文件中提取图像

似乎没有关于如何使用 Python 执行此操作的任何文档。

这是我到目前为止所拥有的：

import os
import pdfminer

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

os.chdir('C:\\Users\\zone_\\Desktop')
diretorio = os.getcwd()
file = str(diretorio) + '\\example.pdf'

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

这是提取文本，但如何检索 pdf 中的图像？

Answer 1

最新版本的 PDFMiner 提供pdfminer.image.ImageWriter class，它处理图像序列化。 你可以像这样使用它：

import pdfminer
from pdfminer.image import ImageWriter
from pdfminer.high_level import extract_pages

pages = list(extract_pages('document.pdf'))
page = pages[0]


def get_image(layout_object):
    if isinstance(layout_object, pdfminer.layout.LTImage):
        return layout_object
    if isinstance(layout_object, pdfminer.layout.LTContainer):
        for child in layout_object:
            return get_image(child)
    else:
        return None


def save_images_from_page(page: pdfminer.layout.LTPage):
    images = list(filter(bool, map(get_image, page)))
    iw = ImageWriter('output_dir')
    for image in images:
        iw.export_image(image)


save_images_from_page(page)

您也可以使用命令行工具，如文档中所述。

Answer 2

我从未使用过 pdfminer，但是我从 Denis Papathanasiou 那里找到了这段代码和这篇解释它的文档，这可能有助于解决这个问题，因为 pdfminer 的文档不是很详尽。 该文档来自过时的版本，但最近更新了代码。

如果您不需要使用 pdfminer，则有可能更容易的替代方案，例如在此答案中找到的 PyMuPDF，它将 PDF 中的所有图像提取为 PNG。

Pdf矿工如何提取图片

问题描述

2 个解决方案

解决方案1
3 2022-02-14 10:25:49

解决方案2
2 已采纳 2021-08-23 12:30:48

Pdf矿工如何提取图片

问题描述

2 个解决方案

解决方案1 3 2022-02-14 10:25:49

解决方案2 2 已采纳 2021-08-23 12:30:48

解决方案1
3 2022-02-14 10:25:49

解决方案2
2 已采纳 2021-08-23 12:30:48