[英]PDF text extraction in Java
我有一个用iText生成并用JasperReports创建的PDF文件(我不知道它是否相关),我想知道是否可以找到一些API或任何东西来查看结构,因为我需要从中提取文本。
如果可能,我需要了解如何创建PDF。 我知道使用PDF并不容易,但是我需要从一些有用的东西开始。 谢谢!
另外一种选择是,如果您想查看以下链接,我们也可以从Aspose PDF中提取
PDFTron PDFGenie可以从PDF文件提取完整的语义表和段落。 它可以生成包含表和段落的所有适当HTML标记的可重排HTML文件。
有关更多详细信息,请参见此博客。 https://www.pdftron.com/blog/parsing-extraction/table-extraction-and-pdf-to-xml-with-pdfgenie/#a-idpart7aevaluating-accuracy-of-pdf-table-recognition
您可以在此处下载Windows / macOS / Linux PDFGenie命令行工具。 https://www.pdftron.com/downloads/linux
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.