簡體   English   中英

如何使用Tika或任何其他庫從PDF文件提取數據並將其存儲為CSV / excel格式

[英]How to extract data from a PDF file using Tika or any other library and store it in CSV/excel format

我想提取PDF文件中存在的數據,並以CSV / Excel工作表的格式顯示。我知道可以使用Java中的Tika庫完成此操作。但是,我確實找到了有關如何提取的解決方案數據作為簡單的文本,但我想知道如何將其存儲在Excel工作表中。

如果有人較早完成了此類工作,請幫助我。

第一部分(也是最困難的部分)是解析原始數據並將其解釋為表。 Apache Tika將為您提供xhtml表示形式(或使用SAX事件調用您自己的處理程序),但通常不會為您構造表。 我指的是pdf文件,因為pdf本身不是表格格式。

因此,您必須采用Tika制作的段落,將其拆分並將生成的單元格傳遞給某些csv/xls/xlsx writter。 如果您的pdf中有一些常規表(每表一行一行,干凈的單元格邏輯分隔等),則可能會起作用。 當然,它看起來就像解析純文本。

萬一我不工作,您將必須使用pdf解析器(例如Apache PDFBox )並嘗試解釋其輸出。

第二部分(輸出)很簡單。 如果csv/ssv/tsv適合您-使用您喜歡的庫來生成它(我可以推薦Apache commons-csv )。 但是要考慮到MS Excel需要UTF-8和UTF-16 csv的BOM,以了解該文件不是采用一字節編碼(例如CP-1252等)。

如果要使用Excel xlsxlsx格式-只需使用Apache POI編寫它即可。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM