簡體   English   中英

Java中的PDF文本提取

[英]PDF text extraction in Java

我有一個用iText生成並用JasperReports創建的PDF文件(我不知道它是否相關),我想知道是否可以找到一些API或任何東西來查看結構,因為我需要從中提取文本。

  • 我嘗試使用iTextPDFBox和其他Java庫,但是我只能逐行獲取文本,而這不是我所需要的
  • 我還嘗試了HTML,XML,DOM的轉換,但通過文本提取得到了相同的結果,沒有解析任何結構。
  • 如果我嘗試以DOCX格式打開它,我會看到Word識別某種結構,例如,一個區域看起來像PDF中的表格,在DOCX中轉換后,它實際上是一個表格。

如果可能,我需要了解如何創建PDF。 我知道使用PDF並不容易,但是我需要從一些有用的東西開始。 謝謝!

另外一種選擇是,如果您想查看以下鏈接,我們也可以從Aspose PDF中提取

https://blog.aspose.com/2018/02/28/extract-text-by-paragraphs-and-convert-files-to-pdf-with-aspose.pdf/

PDFTron PDFGenie可以從PDF文件提取完整的語義表和段落。 它可以生成包含表和段落的所有適當HTML標記的可重排HTML文件。

有關更多詳細信息,請參見此博客。 https://www.pdftron.com/blog/parsing-extraction/table-extraction-and-pdf-to-xml-with-pdfgenie/#a-idpart7aevaluating-accuracy-of-pdf-table-recognition

您可以在此處下載Windows / macOS / Linux PDFGenie命令行工具。 https://www.pdftron.com/downloads/linux

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM