簡體   English   中英

如何一次運行多種語言的tesseract?

[英]How can I run tesseract with multiple languages one time?

我必須分析包含英文和日文文本的圖像。 當我默認運行 tesseract ( -l eng ) 時,一些日語字符丟失了。 否則,如果我用日語( -l jpn )運行 tesseract ,一些英文字符會丟失(例如電子郵件)。

如何運行一個同時識別英文和日文字符的進程?

從 tesseract 3.02 開始,可以為 -l 參數指定多種語言。

-l lang 要使用的語言。 如果沒有指定,則假定為英語。 可以指定多種語言,用加號分隔。 Tesseract 使用 3 個字符的 ISO 639-2 語言代碼。

一個例子:

tesseract myscan.png out -l deu+eng

嘗試這個:

custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)

from langdetect import detect_langs
detect_langs(txt)

注意:您必須使用以下命令安裝 langdetect:

 pip install langdetect

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM