繁体   English   中英

配置ElasticSearch附件映射器以使用OCR插件

[英]Configure ElasticSearch attachment mapper to use OCR plugin

我使用附件映射器安装了弹性搜索,然后在同一台机器上安装了tesseract OCR,我的目标是能够通过弹性搜索索引图像。

目前,我能够使用弹性解析和索引Microsoft Office文件,但无法解析图像,因为某种程度上,弹性需要知道机器上已安装tesseract并将图像传递给它以提取文本。

tesseract安装很好,因为我可以独立使用它,对使它与弹性一起工作有帮助吗?

Apache Tika已启用tesseract。 因此,您可以使用Elasticsearch Ingest Attachment插件在Tika中使用活动OCR索引图像。

我只设法使用位于/org/apache/tika/parser/ocr/TesseractOCRConfig.properties的类路径中的其他属性文件在Tika中启用OCR。 配置的是语言和tesseract位置:

language=deu+eng
tesseractPath=D:\programs\Tesseract-OCR

因此,基本上,您需要做的就是创建保存属性文件的目录结构,并将其添加到类路径中。

希望这可以帮助

康拉德

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM