将图像从 PDImageXObject 提取到文件中而不将其加载到内存中

Question

这与如何有效地从 PDF 中提取图像字节有关，但我将尝试以不同的方式重述问题，因此它与 PDF 解析无关，而与图像处理有关。

我正在使用 PDFBox 从 PDF 文件中提取图像。 有一个PDImageXObject类表示 PDF 内部的图像，其中包含图像元数据（高度、宽度等），并公开了两个用于提取图像的 API： BufferedImage getImage()和BufferedImage getImage(Rectangle rect, int subsampling); .

当前的代码很简单：

BufferedImage image = pdImage.getImage();
ImageIO.write(image, "jpg", baos);

但是，对于大图像，我遇到了内存使用问题，因为 BufferedImage 将未压缩的图像数据存储在内存中，这比压缩结果大得多。

有没有办法通过将整个图像分解成图块（例如 1024x1024）并使用采用Rectangle的getImage签名迭代它们来避免将整个图像加载到内存中？ 我看到了一些关于 JAI 能够使用 Tiles 输出压缩图像而无需立即将未压缩内容加载到内存中的有希望的信息，但我不明白如何将它与我从 PDImageXObject 中获得的内容联系起来。 或者有其他方法可以做到吗？ JAI 仍然是一个活跃的项目吗？

顺便说一句，提取图像的目的是将其馈送到管道中可以处理多种图像格式的下一个组件。 因此，如果 jpg 以外的某种格式更适合平铺处理，那应该没问题。

我知道使用BigBufferedImage 之类的东西的一种可能性。 但我认为一次处理一个 Tile 看起来很有希望。

Answer 1

好的，我找到了一个库： Commons Imaging 。 Class Imaging或许可以帮到你。

我想你可以试试createInputStream()方法，找出真实数据的大小（字节长度）。

将图像从 PDImageXObject 提取到文件中而不将其加载到内存中

问题描述

1 个解决方案

解决方案1
0 2020-02-26 06:37:15

将图像从 PDImageXObject 提取到文件中而不将其加载到内存中

问题描述

1 个解决方案

解决方案1 0 2020-02-26 06:37:15

解决方案1
0 2020-02-26 06:37:15