[英]PDF text extraction in Java
我有一個用iText生成並用JasperReports創建的PDF文件(我不知道它是否相關),我想知道是否可以找到一些API或任何東西來查看結構,因為我需要從中提取文本。
如果可能,我需要了解如何創建PDF。 我知道使用PDF並不容易,但是我需要從一些有用的東西開始。 謝謝!
另外一種選擇是,如果您想查看以下鏈接,我們也可以從Aspose PDF中提取
PDFTron PDFGenie可以從PDF文件提取完整的語義表和段落。 它可以生成包含表和段落的所有適當HTML標記的可重排HTML文件。
有關更多詳細信息,請參見此博客。 https://www.pdftron.com/blog/parsing-extraction/table-extraction-and-pdf-to-xml-with-pdfgenie/#a-idpart7aevaluating-accuracy-of-pdf-table-recognition
您可以在此處下載Windows / macOS / Linux PDFGenie命令行工具。 https://www.pdftron.com/downloads/linux
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.