繁体   English   中英

如何在 Python (Mac) 中将扫描的 PDF 转换为可搜索的 PDF? 例如 OCRMYPDF 模块

[英]How do I convert scanned PDF into searchable PDF in Python (Mac)? e.g. OCRMYPDF module

我正在 python 中编写一个程序,它可以读取 pdf 文档,从文档中提取文本并使用提取的文本重命名文档。 起初,扫描的 pdf 文档不可搜索。 我想将Z437175BA4191210EE 004E1D937494D09Z转换为可搜索的Z437175BA4191210EE004E1D937494D094D094D094D094D094D在za77f554f35426b927411fc92741b561b5633382174 ectrable in za7494 fcroveem

我已经阅读了可用于解决此问题的 ocrmypdf 模块。 但是,由于我的知识有限,我不知道如何编写代码。

我希望 output 将扫描的 pdf 转换为可搜索的 pdf。

我建议通过 turoial 进行工作,可能会花费您一些时间,但这应该是值得的。

我不确定你到底想要什么。 在我的项目中,以下设置在大多数情况下都可以正常工作。

import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

这将分两步完成

  1. 创建 Python OCR Python 函数 import ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)

  2. 调用并使用一个函数。 ocr("input.pdf","output.pdf")

谢谢,有问题请追问。

我在扫描 pdf 文件时也遇到了同样的问题。 我找到了用这 3 行代码来处理这个问题的解决方案。 此代码可以将扫描的 pdf 文档转换为可搜索的 select 文档中的 pdf 文档。

import ocrmypdf
def scannedPdfConverter(file_path, save_path):
    ocrmypdf.ocr(file_path, save_path, skip_text=True)
    print('File converted successfully!')

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM