繁体   English   中英

将PDF转换为XML-XSL-Java?

[英]Conversion of PDF TO XML-XSL - Java?

如何在XSL中将PDF转换为XML并捕获其结构/样式?

我曾经将PDF到XML的转换描述为试图将汉堡包转换为母牛。 这是逆向工程中的一项练习。 PDF在表示文本方面有很大的不同。 在最坏的情况下,您所拥有的只是扫描图像(在这种情况下,您实际上是在进行OCR)。 如果幸运的话,您可以收集文本字符串的集合,并在页面上显示它们的坐标,但没有其他结构指示。

如果PDF的格式易于理解,则有一些工具可以做得很好(通常会生成Microsoft Word)。 Google“ PDF到Word的转换”。 试试看(距离我这样做已经有一段时间了); 不要尝试自己写。 当然,从Word到XML相对“简单”。

PDFTextStream可以很容易地将PDF文档中的文本提取为XML。 一个特别的PDF - > XML方法包含PDFTextStream - XMLOutputTarget -它的源是包含在PDFTextStream这样你就可以轻松地调整,以满足您的要求。

可以使用代码示例入门,或者您可以更深入地了解如何使用PDFTextStream提取PDF文本

(公开:我受雇于PDFTextStream的制造商Snowtide。希望该指针在任何情况下都可以提供帮助。)

我认为Michael Kay在将PDF-> XML转换描述为“ 试图将汉堡包转换为母牛 ”时就钉牢了。

过去,我已经完成了很多PDF到XML的转换。 我很幸运,因为我有不错的PDF来转换,不需要OCR。 我的大部分问题都与表格和图形有关。 像迈克尔建议的那样先转换为Word可能会有所帮助。

我所做的是使用Xpdf中的 pdftotext将PDF转换为文本,然后将文本转换为XML。 (我使用Omnimark进行文本-> XML转换,但是您可能使用Java或Python进行转换。转换为基本结构然后使用XSLT(2.0!)进行调整可能是最简单的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM