如何一次運行多種語言的tesseract？

Question

我必須分析包含英文和日文文本的圖像。 當我默認運行 tesseract ( -l eng ) 時，一些日語字符丟失了。 否則，如果我用日語（ -l jpn ）運行 tesseract ，一些英文字符會丟失（例如電子郵件）。

如何運行一個同時識別英文和日文字符的進程？

Answer 1

從 tesseract 3.02 開始，可以為 -l 參數指定多種語言。

-l lang 要使用的語言。 如果沒有指定，則假定為英語。 可以指定多種語言，用加號分隔。 Tesseract 使用 3 個字符的 ISO 639-2 語言代碼。

一個例子：

tesseract myscan.png out -l deu+eng

Answer 2

嘗試這個：

custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)

from langdetect import detect_langs
detect_langs(txt)

注意：您必須使用以下命令安裝 langdetect：

 pip install langdetect

如何一次運行多種語言的tesseract？

問題描述

2 個解決方案

解決方案1
44 已采納 2014-12-22 12:36:53

解決方案2
2 2020-10-15 07:34:12

如何一次運行多種語言的tesseract？

問題描述

2 個解決方案

解決方案1 44 已采納 2014-12-22 12:36:53

解決方案2 2 2020-10-15 07:34:12

解決方案1
44 已采納 2014-12-22 12:36:53

解決方案2
2 2020-10-15 07:34:12