簡體   English   中英

可以從一個pdf文件中刪除OCRed文本層並將其移至另一個的Python模塊嗎?

[英]Python module that can remove the OCRed text layer from one pdf file and move it to another?

我有兩個pdf文件,它們幾乎相同,除了第一個有OCRed文本而另一個沒有,並且它們具有不同的壓縮率。

我要這樣做的原因是,第一個文件的OCRed文本中存在一些錯誤,並且該文件使用OCRed文本覆蓋了相應的圖像,這使我無法知道正確的文本是什么。 這是第二個文件可以幫助我的方式。

我想要

  • 使第一個文件顯示圖像,並隱藏OCRed文本且不覆蓋圖像。

  • 或者,將OCRed文本從第一個文件移到第二個文件。

  • 或者,從第一個文件中刪除OCRed文本,然后重新進行OCR,因為Adobe Acrobat無法使用OCRed文本重新對pdf文件進行OCR。

所以我想知道是否有一個Python模塊可以將OCRed文本層從第一個文件移到第二個文件,同時又將OCRed文本層從第一個文件移開?

如果沒有,那么哪些語言可以擁有此類庫?

謝謝!

查看pdfminer; 它不是完全用戶友好的API,但是您應該能夠導航PDF結構並刪除阻礙文本。 您可以提出一些具體問題。

但是,如果僅是隱藏OCR的問題,則可以在Acrobat中打開文件將其隱藏。 IIRC它具有僅顯示OCR,僅顯示背景或同時顯示兩者的選項。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM