繁体   English   中英

如何获得 Alpine linux 的 tesseract 常规英语语言 package?

[英]How can I get tesseract regular english language package for Alpine linux?

我正在构建一个基于 alpine 的 docker 图像,它依赖于 OCR 的 tesseract。 tesseract 网站列出了两种英语风格,eng(现代英语)和 enm(中古英语)。 但是,我在 Alpine 上安装 eng 版本时遇到问题。

我的 Dockerfile 具有以下内容:

FROM eclipse-temurin:17-jre-alpine as tesseract-master

RUN apk update && apk add tesseract-ocr
RUN apk update && apk add tesseract-ocr-data-eng

这找不到eng语言package。在构建过程中,列出了repo ,很明显它没有eng package。

我可以安装 enm package,但我觉得会有问题,因为它是针对中英文的。

有没有人在 Alpine 上成功安装了 eng package?

如果您查看一种语言的那些包中的内容,例如tesseract-ocr-data-enm ,您会很快意识到它只包含一个文件:

  • /usr/share/tessdata/enm.traineddata

来源: https://pkgs.alpinelinux.org/contents?name=tesseract-ocr-data-enm&branch=v3.17&arch=aarch64

现在,如果您对它进行逆向工程,您可以尝试找到哪个 package 确实包含文件/usr/share/tessdata/eng.traineddata ,毫不奇怪,它是默认的 package: tesseract-ocr

来源: https://pkgs.alpinelinux.org/contents?file=eng.traineddata&branch=v3.17&arch=aarch64

因此,您的Dockerfile应该只是:

FROM eclipse-temurin:17-jre-alpine as tesseract-master

RUN apk add --no-cache \
      tesseract-ocr

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM