如何在 Python (Mac) 中將掃描的 PDF 轉換為可搜索的 PDF？例如 OCRMYPDF 模塊

Question

我正在 python 中編寫一個程序，它可以讀取 pdf 文檔，從文檔中提取文本並使用提取的文本重命名文檔。 起初，掃描的 pdf 文檔不可搜索。 我想將Z437175BA4191210EE 004E1D937494D09Z轉換為可搜索的Z437175BA4191210EE004E1D937494D094D094D094D094D094D在za77f554f35426b927411fc92741b561b5633382174 ectrable in za7494 fcroveem

我已經閱讀了可用於解決此問題的 ocrmypdf 模塊。 但是，由於我的知識有限，我不知道如何編寫代碼。

我希望 output 將掃描的 pdf 轉換為可搜索的 pdf。

Answer 1

我建議通過 turoial 進行工作，可能會花費您一些時間，但這應該是值得的。

我不確定你到底想要什么。 在我的項目中，以下設置在大多數情況下都可以正常工作。

import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

Answer 2

這將分兩步完成

創建 Python OCR Python 函數 import ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)
調用並使用一個函數。 ocr("input.pdf","output.pdf")

謝謝，有問題請追問。

Answer 3

我在掃描 pdf 文件時也遇到了同樣的問題。 我找到了用這 3 行代碼來處理這個問題的解決方案。 此代碼可以將掃描的 pdf 文檔轉換為可搜索的 select 文檔中的 pdf 文檔。

import ocrmypdf
def scannedPdfConverter(file_path, save_path):
    ocrmypdf.ocr(file_path, save_path, skip_text=True)
    print('File converted successfully!')

如何在 Python (Mac) 中將掃描的 PDF 轉換為可搜索的 PDF？例如 OCRMYPDF 模塊

問題描述

3 個解決方案

解決方案1
3 2019-10-07 12:22:32

解決方案2
0 2021-07-06 13:03:20

解決方案3
0 2022-08-19 16:18:33

如何在 Python (Mac) 中將掃描的 PDF 轉換為可搜索的 PDF？ 例如 OCRMYPDF 模塊

問題描述

3 個解決方案

解決方案1 3 2019-10-07 12:22:32

解決方案2 0 2021-07-06 13:03:20

解決方案3 0 2022-08-19 16:18:33

如何在 Python (Mac) 中將掃描的 PDF 轉換為可搜索的 PDF？例如 OCRMYPDF 模塊

解決方案1
3 2019-10-07 12:22:32

解決方案2
0 2021-07-06 13:03:20

解決方案3
0 2022-08-19 16:18:33