![](/img/trans.png)
[英]how to properly extract utf8 text (japanese symbols) from a webpage with BeautifulSoup4
[英]How to properly extract Japanese txt from PDF files
我需要從 pdf 文件中提取文本。
問題是文件的某些頁面是掃描的 pdf,無法使用 PyPDF 或 PDFMiner 檢索文本。 所以文本是空的。
誰能告訴我如何處理?
我不認為有一個快速的解決方案來處理 Unicode,尤其是日本人。
我們可以 go 的解決方案之一:
import cv2
import pytesseract
from pytesseract import Output
img = cv2.imread('invoice-sample.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())
關於tesseract,你可以在這篇文章中找到更多。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.