繁体 English 中英

从PDF文件中提取文本和图像

[英]extracting text AND Images from PDF file

原文 2014-01-15 15:04:44 7 2 java/ image/ pdf/ text/ extract

我一直在用这个碰头，研究并几乎尝试了每个建议给我的图书馆。 我目前正在尝试用Java编写一个程序，该程序将从pdf文件中提取文本和图像，并允许我将提取的内容写入word文件。 我已经设法使用ICEpdf库提取内容，但是问题是我需要能够按照与读取内容完全相同的顺序来编写内容。 因此，为澄清起见，我需要一个库来帮助我跟踪文本和图像在页面中的确切位置，以便将它们放在Word文件中的同一位置。

2 个解决方案

PDF到Word转换器是一个非常复杂的命题。

您最好的选择可能是使用Open Office为您完成此任务，甚至不要尝试执行中间步骤。

http://www.openoffice.org/api/

看一下： Java的高级PDF解析器

关：

-据我所知，还有一个python解析器，可以将pdf转换为html（这样，您就可以跟踪pdf中对象的顺序）。 我知道它不是java，但您也许可以使用输出。 http://www.unixuser.org/~euske/python/pdfminer/index.html

从pdf文件中提取所有图像和文本

[英]Extracting all images and text from pdf file

从PDF文件中提取文本

[英]Extracting text from a PDF file

使用pdfbox从PDF文件中提取文本

[英]Extracting text from PDF file using pdfbox

从PDF提取文本位置

[英]Extracting text locations from PDF

使用Java从pdf文件提取文本时面临的问题

[英]Facing issues on extracting text from pdf file using java

使用Java从100个图像URL的文本文件中提取图像

[英]Extracting images from a text file of 100 image urls using java

PDFBox：从pdf提取图像到inputstream

[英]PDFBox: extracting images from pdf to inputstream

使用 JBoss Richfaces 从 PDF 中提取文本

[英]Extracting text from a PDF using JBoss Richfaces

使用itext从pdf提取数学文本

[英]Extracting Mathematical text from pdf using itext

使用变量从生成的PDF文档中提取文本

[英]Extracting text from generated PDF document with variables

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从pdf文件中提取所有图像和文本从PDF文件中提取文本使用pdfbox从PDF文件中提取文本从PDF提取文本位置使用Java从pdf文件提取文本时面临的问题使用Java从100个图像URL的文本文件中提取图像 PDFBox：从pdf提取图像到inputstream 使用 JBoss Richfaces 从 PDF 中提取文本使用itext从pdf提取数学文本使用变量从生成的PDF文档中提取文本

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM