簡體 English 中英

如何使用Tika或任何其他庫從PDF文件提取數據並將其存儲為CSV / excel格式

[英]How to extract data from a PDF file using Tika or any other library and store it in CSV/excel format

原文 2016-03-26 18:22:33 3 1 java/ excel/ pdf/ apache-tika

我想提取PDF文件中存在的數據，並以CSV / Excel工作表的格式顯示。我知道可以使用Java中的Tika庫完成此操作。但是，我確實找到了有關如何提取的解決方案數據作為簡單的文本，但我想知道如何將其存儲在Excel工作表中。

如果有人較早完成了此類工作，請幫助我。

1 個解決方案

第一部分（也是最困難的部分）是解析原始數據並將其解釋為表。 Apache Tika將為您提供xhtml表示形式（或使用SAX事件調用您自己的處理程序），但通常不會為您構造表。 我指的是pdf文件，因為pdf本身不是表格格式。

因此，您必須采用Tika制作的段落，將其拆分並將生成的單元格傳遞給某些csv/xls/xlsx writter。 如果您的pdf中有一些常規表（每表一行一行，干凈的單元格邏輯分隔等），則可能會起作用。 當然，它看起來就像解析純文本。

萬一我不工作，您將必須使用pdf解析器（例如Apache PDFBox ）並嘗試解釋其輸出。

第二部分（輸出）很簡單。 如果csv/ssv/tsv適合您-使用您喜歡的庫來生成它（我可以推薦Apache commons-csv ）。 但是要考慮到MS Excel需要UTF-8和UTF-16 csv的BOM，以了解該文件不是采用一字節編碼（例如CP-1252等）。

如果要使用Excel xls或xlsx格式-只需使用Apache POI編寫它即可。

使用Java中的Apache Tika從pdf文件中提取文本

[英]Extract text from a pdf file using Apache Tika in java

使用Tika庫從Java中的圖像提取文本

[英]Extract text from image in java using tika library

如何使用 GSON 庫將 excel 文件數據轉換為 JSON 格式？

[英]How to convert the excel file data into JSON format using GSON library?

如何使用JPedal從pdf文件中提取數據？

[英]How to extract data from a pdf file using JPedal?

使用Tika從大型pdf中提取文本

[英]Extract text from a large pdf with Tika

如何使用 iText 從 pdf 文件中提取數據

[英]How to extract the data from a pdf File using iText

如何在Java中使用Apache Tika從PDF文件獲取頁眉和頁腳

[英]How to get Header and Footer from PDF file using apache tika in java

如何使用Apache Tika從.wps文件提取文本？

[英]How to use Apache Tika to extract text from a .wps file?

如何使用 TIKA 閱讀 PDF 文件的前幾頁

[英]How to read first few pages of a PDF file using TIKA

如何使用 OpenCSV 或任何其他庫將 csv 轉換為嵌套 bean？

[英]How to convert csv to nested beans using OpenCSV or any other library?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用Java中的Apache Tika從pdf文件中提取文本使用Tika庫從Java中的圖像提取文本如何使用 GSON 庫將 excel 文件數據轉換為 JSON 格式？如何使用JPedal從pdf文件中提取數據？使用Tika從大型pdf中提取文本如何使用 iText 從 pdf 文件中提取數據如何在Java中使用Apache Tika從PDF文件獲取頁眉和頁腳如何使用Apache Tika從.wps文件提取文本？如何使用 TIKA 閱讀 PDF 文件的前幾頁如何使用 OpenCSV 或任何其他庫將 csv 轉換為嵌套 bean？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM