從pdf導出數據的最佳方法

Question

嗨，我在新聞報紙上工作，我們正在尋找一種提供存檔材料的方法。 Atm我們的頁面采用pdf格式，因此我們需要一種從pdf導出文本和圖像的方法，以便可以將它們添加到數據庫中。 我們已經看過Iceni Technology的Adobe Acrobat的News studio插件，但是只是想知道是否有人知道導出pdf數據的其他選項。 謝謝

Answer 1

有pdftotext （ xpdf的一部分）。 它將從PDF文件中提取文本（如果以文本形式存儲在PDF中，而不是作為圖像存儲）。 您可能會使用它。

但是，請注意，從PDF提取文本的任何解決方案都會受到限制，因為PDF實際上僅用於顯示。 至少，您不會有文章日期，作者等元數據； 同樣，如果文本的一部分在圖像中，則可能會丟失它。

更好的方法可能是從生成PDF的系統中提取原始數據，並以合適的格式將其存檔。 也許需要更多的工作，但是效果更好。

Answer 2

如果您的pdf文件已經包含文本，那么您的工作將會更加容易：pdftotext和pdftohtml之類的工具將為您提供圖像和文本輸出（請參閱Ubuntu軟件包xpdf-utils）。

另一方面，如果pdf中的文本是基於圖像的，則必須查看OCR選項。 幸運的是，有一些不錯的開源產品。 使用ImageMagick和Tesseract的結合，我取得了一些成功：

首先，使用ImageMagick將PDF轉換為TIFF（Tesseract不會OCR PDF）
使用Tesseract對TIFF進行OCR（您也可以嘗試gocr ，也可以在Ubuntu倉庫中找到）

關鍵是要確保TIFF的質量足夠高。 這些ImageMagick設置對我來說效果很好：

convert -depth 8 -density 500 -colorspace GRAY -resize 1600 input.pdf output.tif

如果您還需要從pdf中提取元數據（標題，位置，主題，作者等），則pdftk是一個有用的工具。

從pdf導出數據的最佳方法

問題描述

2 個解決方案

解決方案1
0 2010-03-08 15:49:34

解決方案2
0 2010-03-08 15:58:17

從pdf導出數據的最佳方法

問題描述

2 個解決方案

解決方案1 0 2010-03-08 15:49:34

解決方案2 0 2010-03-08 15:58:17

解決方案1
0 2010-03-08 15:49:34

解決方案2
0 2010-03-08 15:58:17