繁体   English   中英

从PDF文件中提取文本和图像

[英]extracting text AND Images from PDF file

我一直在用这个碰头,研究并几乎尝试了每个建议给我的图书馆。 我目前正在尝试用Java编写一个程序,该程序将从pdf文件中提取文本和图像,并允许我将提取的内容写入word文件。 我已经设法使用ICEpdf库提取内容,但是问题是我需要能够按照与读取内容完全相同的顺序来编写内容。 因此,为澄清起见,我需要一个库来帮助我跟踪文本和图像在页面中的确切位置,以便将它们放在Word文件中的同一位置。

PDF到Word转换器是一个非常复杂的命题。

您最好的选择可能是使用Open Office为您完成此任务,甚至不要尝试执行中间步骤。

http://www.openoffice.org/api/

看一下: Java的高级PDF解析器

关:

-据我所知,还有一个python解析器,可以将pdf转换为html(这样,您就可以跟踪pdf中对象的顺序)。 我知道它不是java,但您也许可以使用输出。 http://www.unixuser.org/~euske/python/pdfminer/index.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM