繁体 English 中英

将PDF转换为XML-XSL-Java？

[英]Conversion of PDF TO XML-XSL - Java?

原文 2012-07-16 11:44:05 6 3 java/ xml/ java-ee/ xslt

如何在XSL中将PDF转换为XML并捕获其结构/样式？

3 个解决方案

我曾经将PDF到XML的转换描述为试图将汉堡包转换为母牛。 这是逆向工程中的一项练习。 PDF在表示文本方面有很大的不同。 在最坏的情况下，您所拥有的只是扫描图像（在这种情况下，您实际上是在进行OCR）。 如果幸运的话，您可以收集文本字符串的集合，并在页面上显示它们的坐标，但没有其他结构指示。

如果PDF的格式易于理解，则有一些工具可以做得很好（通常会生成Microsoft Word）。 Google“ PDF到Word的转换”。 试试看（距离我这样做已经有一段时间了）； 不要尝试自己写。 当然，从Word到XML相对“简单”。

PDFTextStream可以很容易地将PDF文档中的文本提取为XML。 一个特别的PDF - > XML方法包含PDFTextStream - XMLOutputTarget -它的源是包含在PDFTextStream这样你就可以轻松地调整，以满足您的要求。

可以使用代码示例入门，或者您可以更深入地了解如何使用PDFTextStream提取PDF文本。

（公开：我受雇于PDFTextStream的制造商Snowtide。希望该指针在任何情况下都可以提供帮助。）

我认为Michael Kay在将PDF-> XML转换描述为“ 试图将汉堡包转换为母牛 ”时就钉牢了。

过去，我已经完成了很多PDF到XML的转换。 我很幸运，因为我有不错的PDF来转换，不需要OCR。 我的大部分问题都与表格和图形有关。 像迈克尔建议的那样先转换为Word可能会有所帮助。

我所做的是使用Xpdf中的 pdftotext将PDF转换为文本，然后将文本转换为XML。 （我使用Omnimark进行文本-> XML转换，但是您可能使用Java或Python进行转换。转换为基本结构然后使用XSLT（2.0！）进行调整可能是最简单的。

XML（XSL）错误-将HTML转换为PDF（Java）

[英]XML (XSL) Error — Converting HTML to PDF (Java)

PDF到XML的转换

[英]PDF to XML Conversion

Java XSL / XML JAXB

[英]Java XSL/XML JAXB

java excel到pdf转换

[英]java excel to pdf conversion

Java pdf到Excel的转换

[英]Java pdf to Excel Conversion

java中的Docx到PDF转换

[英]Docx to PDF conversion in java

使用XSL中的样式将XML转换为PDF

[英]Converting XML to PDF, using styles from XSL

xml和java转换

[英]xml and java conversion

对象到xml的转换：java

[英]Object to xml conversion: java

CSV到XML的转换Java

[英]CSV to XML conversion Java

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 XML（XSL）错误-将HTML转换为PDF（Java） PDF到XML的转换 Java XSL / XML JAXB java excel到pdf转换 Java pdf到Excel的转换 java中的Docx到PDF转换使用XSL中的样式将XML转换为PDF xml和java转换对象到xml的转换：java CSV到XML的转换Java

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM