繁体 English 中英

Java中的PDF文本提取

[英]PDF text extraction in Java

原文 2018-07-11 08:04:30 7 2 java/ parsing/ pdf

我有一个用iText生成并用JasperReports创建的PDF文件（我不知道它是否相关），我想知道是否可以找到一些API或任何东西来查看结构，因为我需要从中提取文本。

如果可能，我需要了解如何创建PDF。 我知道使用PDF并不容易，但是我需要从一些有用的东西开始。 谢谢！

另外一种选择是，如果您想查看以下链接，我们也可以从Aspose PDF中提取

PDFTron PDFGenie可以从PDF文件提取完整的语义表和段落。 它可以生成包含表和段落的所有适当HTML标记的可重排HTML文件。

您可以在此处下载Windows / macOS / Linux PDFGenie命令行工具。 https://www.pdftron.com/downloads/linux

[英]Text Extraction on a Generated PDF report in Java

[英]Java - Text Extraction from PDF using OCR

[英]java itext catching null exception pdf text extraction

[英]Java - PDFBox - Text Extraction

[英]Text Extraction from HTML Java

[英]Text extraction with java html parsers

[英]How to get text extraction from PDF to work?

[英]iText PDF Text Extraction with fonts and styles

[英]Java text extraction and data structure design

[英]java - omitting special characters from text extraction

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 用Java生成的PDF报告上的文本提取 Java - 使用 OCR 从 PDF 中提取文本 java itext捕获null异常pdf文本提取 Java - PDFBox - 文本提取从HTML Java中提取文本使用Java HTML解析器提取文本如何使PDF文本提取正常工作？带有字体和样式的iText PDF文本提取 Java文本提取和数据结构设计 java-从文本提取中省略特殊字符

相关标签