簡體   English   中英

pdf實際裁剪

[英]Pdf real cropping

我需要使用linux shell裁剪pdf文檔,然后提取該裁剪的pdf中的文本。

我的想法是使用pdfcrop linux工具裁剪pdf,然后使用txt2pdf文本提取器工具提取裁剪區域中的文本,但是我意識到我正在考慮圖像,當我嘗試這樣做時,結果與對原始pdf文件(未經裁剪)的處理相同。

我想這是一個分層問題。 由於pdf格式適用於圖層,因此如果我不“裁剪”所有圖層,結果將包括所有圖層中的所有信息,而這是我所不希望的。

如果有人對我如何在pdf中進行真正的“所有圖層裁剪”有所了解,我將非常感激。 如果可能,或者我應該開始考慮其他解決方案。

TY

它不是分層的,其事實是裁剪PDF通常只涉及簡單地設置CropBox,而根本不改變PDF的實際內容(除了CropBox之外)。 大多數文本提取代碼將忽略CropBox並提取所有文本。

您可以稍作努力,使用Ghostscript生成真正裁剪的PDF(盡管請注意,部分裁剪的字形仍將包括在內),然后從中提取文本。 但這很丑。

另外,Ghostscript和MuPDF都可以提取帶有坐標信息的文本,這可能足以滿足您的需求。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM