簡體 English 中英

pdf實際裁剪

[英]Pdf real cropping

原文 2014-11-03 15:24:12 8 1 pdf/ crop/ layer

我需要使用linux shell裁剪pdf文檔，然后提取該裁剪的pdf中的文本。

我的想法是使用pdfcrop linux工具裁剪pdf，然后使用txt2pdf文本提取器工具提取裁剪區域中的文本，但是我意識到我正在考慮圖像，當我嘗試這樣做時，結果與對原始pdf文件（未經裁剪）的處理相同。

我想這是一個分層問題。 由於pdf格式適用於圖層，因此如果我不“裁剪”所有圖層，結果將包括所有圖層中的所有信息，而這是我所不希望的。

如果有人對我如何在pdf中進行真正的“所有圖層裁剪”有所了解，我將非常感激。 如果可能，或者我應該開始考慮其他解決方案。

它不是分層的，其事實是裁剪PDF通常只涉及簡單地設置CropBox，而根本不改變PDF的實際內容（除了CropBox之外）。 大多數文本提取代碼將忽略CropBox並提取所有文本。

您可以稍作努力，使用Ghostscript生成真正裁剪的PDF（盡管請注意，部分裁剪的字形仍將包括在內），然后從中提取文本。 但這很丑。

另外，Ghostscript和MuPDF都可以提取帶有坐標信息的文本，這可能足以滿足您的需求。

[英]Cropping pages of a .pdf file

[英]Actually cropping a PDF with PDF Clown

[英]Cropping a PDF using Ghostscript 9.01

[英]Cropping margins and justify all contents in PDF

[英]Cropping a region from a PDF page with PDFBox

[英]Cropping a PDF / Adding crop box using Ghostscript

[英]PDF - Mass cropping of non-whitespace application

[英]Bash for splitting and auto cropping PDF files

[英]python - destructive cropping and resizing of svg or pdf

[英]Cropping a PDF document using itext returns undesired output

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 裁剪 .pdf 文件的頁面實際使用 PDF Clown 裁剪 PDF 使用 Ghostscript 9.01 裁剪 PDF 裁切邊距並證明PDF中的所有內容合理使用PDFBox從PDF頁面裁剪區域使用Ghostscript裁剪PDF /添加裁剪框 PDF-非空白應用程序的批量裁剪 Bash用於分割和自動裁剪PDF文件 python - svg 或 pdf 的破壞性裁剪和調整大小使用itext裁剪PDF文檔會返回不希望的輸出

相關標簽