[英]How to convert scanned PDF to searchable PDF in Python? [Environment:Windows]
[英]How do I convert scanned PDF into searchable PDF in Python (Mac)? e.g. OCRMYPDF module
我正在 python 中編寫一個程序,它可以讀取 pdf 文檔,從文檔中提取文本並使用提取的文本重命名文檔。 起初,掃描的 pdf 文檔不可搜索。 我想將Z437175BA4191210EE 004E1D937494D09Z轉換為可搜索的Z437175BA4191210EE004E1D937494D094D094D094D094D094D在za77f554f35426b927411fc92741b561b5633382174 ectrable in za7494 fcroveem
我已經閱讀了可用於解決此問題的 ocrmypdf 模塊。 但是,由於我的知識有限,我不知道如何編寫代碼。
我希望 output 將掃描的 pdf 轉換為可搜索的 pdf。
我建議通過 turoial 進行工作,可能會花費您一些時間,但這應該是值得的。
我不確定你到底想要什么。 在我的項目中,以下設置在大多數情況下都可以正常工作。
import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)
這將分兩步完成
創建 Python OCR Python 函數 import ocrmypdf def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path)
調用並使用一個函數。 ocr("input.pdf","output.pdf")
謝謝,有問題請追問。
我在掃描 pdf 文件時也遇到了同樣的問題。 我找到了用這 3 行代碼來處理這個問題的解決方案。 此代碼可以將掃描的 pdf 文檔轉換為可搜索的 select 文檔中的 pdf 文檔。
import ocrmypdf
def scannedPdfConverter(file_path, save_path):
ocrmypdf.ocr(file_path, save_path, skip_text=True)
print('File converted successfully!')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.