簡體   English   中英

從pdf導出數據的最佳方法

[英]best way to export data from pdfs

嗨,我在新聞報紙上工作,我們正在尋找一種提供存檔材料的方法。 Atm我們的頁面采用pdf格式,因此我們需要一種從pdf導出文本和圖像的方法,以便可以將它們添加到數據庫中。 我們已經看過Iceni Technology的Adobe Acrobat的News studio插件,但是只是想知道是否有人知道導出pdf數據的其他選項。 謝謝

pdftotextxpdf的一部分)。 它將從PDF文件中提取文本(如果以文本形式存儲在PDF中,而不是作為圖像存儲)。 您可能會使用它。

但是,請注意,從PDF提取文本的任何解決方案都會受到限制,因為PDF實際上僅用於顯示。 至少,您不會有文章日期,作者等元數據; 同樣,如果文本的一部分在圖像中,則可能會丟失它。

更好的方法可能是從生成PDF的系統中提取原始數據,並以合適的格式將其存檔。 也許需要更多的工作,但是效果更好。

如果您的pdf文件已經包含文本,那么您的工作將會更加容易:pdftotext和pdftohtml之類的工具將為您提供圖像和文本輸出(請參閱Ubuntu軟件包xpdf-utils)。

另一方面,如果pdf中的文本是基於圖像的,則必須查看OCR選項。 幸運的是,有一些不錯的開源產品。 使用ImageMagickTesseract的結合,我取得了一些成功:

  1. 首先,使用ImageMagick將PDF轉換為TIFF(Tesseract不會OCR PDF)
  2. 使用Tesseract對TIFF進行OCR(您也可以嘗試gocr ,也可以在Ubuntu倉庫中找到)

關鍵是要確保TIFF的質量足夠高。 這些ImageMagick設置對我來說效果很好:

convert -depth 8 -density 500 -colorspace GRAY -resize 1600 input.pdf output.tif

如果您還需要從pdf中提取元數據(標題,位置,主題,作者等),則pdftk是一個有用的工具。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM