如何在 Python (Mac) 中将扫描的 PDF 转换为可搜索的 PDF？例如 OCRMYPDF 模块

Question

我正在 python 中编写一个程序，它可以读取 pdf 文档，从文档中提取文本并使用提取的文本重命名文档。 起初，扫描的 pdf 文档不可搜索。 我想将Z437175BA4191210EE 004E1D937494D09Z转换为可搜索的Z437175BA4191210EE004E1D937494D094D094D094D094D094D在za77f554f35426b927411fc92741b561b5633382174 ectrable in za7494 fcroveem

我已经阅读了可用于解决此问题的 ocrmypdf 模块。 但是，由于我的知识有限，我不知道如何编写代码。

我希望 output 将扫描的 pdf 转换为可搜索的 pdf。

Answer 1

我建议通过 turoial 进行工作，可能会花费您一些时间，但这应该是值得的。

我不确定你到底想要什么。 在我的项目中，以下设置在大多数情况下都可以正常工作。

import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

Answer 2

这将分两步完成

创建 Python OCR Python 函数 import ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)
调用并使用一个函数。 ocr("input.pdf","output.pdf")

谢谢，有问题请追问。

Answer 3

我在扫描 pdf 文件时也遇到了同样的问题。 我找到了用这 3 行代码来处理这个问题的解决方案。 此代码可以将扫描的 pdf 文档转换为可搜索的 select 文档中的 pdf 文档。

import ocrmypdf
def scannedPdfConverter(file_path, save_path):
    ocrmypdf.ocr(file_path, save_path, skip_text=True)
    print('File converted successfully!')

如何在 Python (Mac) 中将扫描的 PDF 转换为可搜索的 PDF？例如 OCRMYPDF 模块

问题描述

3 个解决方案

解决方案1
3 2019-10-07 12:22:32

解决方案2
0 2021-07-06 13:03:20

解决方案3
0 2022-08-19 16:18:33

如何在 Python (Mac) 中将扫描的 PDF 转换为可搜索的 PDF？ 例如 OCRMYPDF 模块

问题描述

3 个解决方案

解决方案1 3 2019-10-07 12:22:32

解决方案2 0 2021-07-06 13:03:20

解决方案3 0 2022-08-19 16:18:33

如何在 Python (Mac) 中将扫描的 PDF 转换为可搜索的 PDF？例如 OCRMYPDF 模块

解决方案1
3 2019-10-07 12:22:32

解决方案2
0 2021-07-06 13:03:20

解决方案3
0 2022-08-19 16:18:33