繁体   English   中英

可以从一个pdf文件中删除OCRed文本层并将其移至另一个的Python模块吗?

[英]Python module that can remove the OCRed text layer from one pdf file and move it to another?

我有两个pdf文件,它们几乎相同,除了第一个有OCRed文本而另一个没有,并且它们具有不同的压缩率。

我要这样做的原因是,第一个文件的OCRed文本中存在一些错误,并且该文件使用OCRed文本覆盖了相应的图像,这使我无法知道正确的文本是什么。 这是第二个文件可以帮助我的方式。

我想要

  • 使第一个文件显示图像,并隐藏OCRed文本且不覆盖图像。

  • 或者,将OCRed文本从第一个文件移到第二个文件。

  • 或者,从第一个文件中删除OCRed文本,然后重新进行OCR,因为Adobe Acrobat无法使用OCRed文本重新对pdf文件进行OCR。

所以我想知道是否有一个Python模块可以将OCRed文本层从第一个文件移到第二个文件,同时又将OCRed文本层从第一个文件移开?

如果没有,那么哪些语言可以拥有此类库?

谢谢!

查看pdfminer; 它不是完全用户友好的API,但是您应该能够导航PDF结构并删除阻碍文本。 您可以提出一些具体问题。

但是,如果仅是隐藏OCR的问题,则可以在Acrobat中打开文件将其隐藏。 IIRC它具有仅显示OCR,仅显示背景或同时显示两者的选项。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM