簡體   English   中英

如何在 Python (Mac) 中將掃描的 PDF 轉換為可搜索的 PDF? 例如 OCRMYPDF 模塊

[英]How do I convert scanned PDF into searchable PDF in Python (Mac)? e.g. OCRMYPDF module

我正在 python 中編寫一個程序,它可以讀取 pdf 文檔,從文檔中提取文本並使用提取的文本重命名文檔。 起初,掃描的 pdf 文檔不可搜索。 我想將Z437175BA4191210EE 004E1D937494D09Z轉換為可搜索的Z437175BA4191210EE004E1D937494D094D094D094D094D094D在za77f554f35426b927411fc92741b561b5633382174 ectrable in za7494 fcroveem

我已經閱讀了可用於解決此問題的 ocrmypdf 模塊。 但是,由於我的知識有限,我不知道如何編寫代碼。

我希望 output 將掃描的 pdf 轉換為可搜索的 pdf。

我建議通過 turoial 進行工作,可能會花費您一些時間,但這應該是值得的。

我不確定你到底想要什么。 在我的項目中,以下設置在大多數情況下都可以正常工作。

import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

這將分兩步完成

  1. 創建 Python OCR Python 函數 import ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)

  2. 調用並使用一個函數。 ocr("input.pdf","output.pdf")

謝謝,有問題請追問。

我在掃描 pdf 文件時也遇到了同樣的問題。 我找到了用這 3 行代碼來處理這個問題的解決方案。 此代碼可以將掃描的 pdf 文檔轉換為可搜索的 select 文檔中的 pdf 文檔。

import ocrmypdf
def scannedPdfConverter(file_path, save_path):
    ocrmypdf.ocr(file_path, save_path, skip_text=True)
    print('File converted successfully!')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM