簡體   English   中英

如何從PDF個文件中正確提取日語txt

[英]How to properly extract Japanese txt from PDF files

我需要從 pdf 文件中提取文本。

問題是文件的某些頁面是掃描的 pdf,無法使用 PyPDF 或 PDFMiner 檢索文本。 所以文本是空的。

誰能告訴我如何處理?

我不認為有一個快速的解決方案來處理 Unicode,尤其是日本人。

我們可以 go 的解決方案之一:

  • 遍歷頁面,判斷頁面是否為掃描pdf。 這可以使用 PyMUPDF 完成,看看這個答案。
  • 如果頁面不是掃描pdf,我們可以像往常一樣從pdf中提取文本。
  • 對於沒有掃描pdf的頁面,我們可以使用pdf2image將pdf轉換成.png圖片,然后使用pytesseract提取數據。 這里通過示例代碼介紹如何從圖像中讀取數據。
  • 您可能需要做一些額外的數據工作才能獲得正確的單詞。
import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('invoice-sample.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

關於tesseract,你可以在這篇文章中找到更多。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM