如何一次运行多种语言的tesseract？

Question

我必须分析包含英文和日文文本的图像。 当我默认运行 tesseract ( -l eng ) 时，一些日语字符丢失了。 否则，如果我用日语（ -l jpn ）运行 tesseract ，一些英文字符会丢失（例如电子邮件）。

如何运行一个同时识别英文和日文字符的进程？

Answer 1

从 tesseract 3.02 开始，可以为 -l 参数指定多种语言。

-l lang 要使用的语言。 如果没有指定，则假定为英语。 可以指定多种语言，用加号分隔。 Tesseract 使用 3 个字符的 ISO 639-2 语言代码。

一个例子：

tesseract myscan.png out -l deu+eng

Answer 2

尝试这个：

custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)

from langdetect import detect_langs
detect_langs(txt)

注意：您必须使用以下命令安装 langdetect：

 pip install langdetect

如何一次运行多种语言的tesseract？

问题描述

2 个解决方案

解决方案1
44 已采纳 2014-12-22 12:36:53

解决方案2
2 2020-10-15 07:34:12

如何一次运行多种语言的tesseract？

问题描述

2 个解决方案

解决方案1 44 已采纳 2014-12-22 12:36:53

解决方案2 2 2020-10-15 07:34:12

解决方案1
44 已采纳 2014-12-22 12:36:53

解决方案2
2 2020-10-15 07:34:12