簡體   English   中英

如何使用 Java 從 pdf 中提取圖像(不使用 pdfbox)

[英]How to extract images from pdf using Java (not using pdfbox)

我一直在研究如何從一個大(> 300MB)的 PDF 文件中提取圖像。 我正在使用 pdfbox,但由於某些我無法弄清楚的特殊原因,某些頁面未正確提取。

我使用 pdfbox 的 PDFToImage 類作為我代碼的基礎。

那么,你知道另一個可以幫助我做到這一點的圖書館嗎? 我知道可以使用 iText,但我讀到它不能用於商業產品。

我已經安裝了 xpdf 和 xpdf-utils 包,並且名為 pdfimages 的實用程序運行良好。 但是我需要從 Java 解決這個問題,它應該是可移植的。

我認為您在這里談論的是兩種不同的事情:從 PDF 中提取圖像,以及將 PDF 頁面轉換為圖像。 PDFToImage將為每個頁面輸出一個圖像,而 pdfimages 提取所有嵌入的圖像(例如,文本文檔有 0 個圖像)。

看看org.apache.pdfbox.tools.ExtractImages源代碼),看看它是否符合您的要求。

很難處理 300 Mb PDF 的最可能原因是內存不足。 如果它適用於較小的 PDF,我會仔細研究它失敗的原因。

你有沒有試過icepdfJPedal (都是純java的)?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM