[英]Configure ElasticSearch attachment mapper to use OCR plugin
我使用附件映射器安装了弹性搜索,然后在同一台机器上安装了tesseract OCR,我的目标是能够通过弹性搜索索引图像。
目前,我能够使用弹性解析和索引Microsoft Office文件,但无法解析图像,因为某种程度上,弹性需要知道机器上已安装tesseract并将图像传递给它以提取文本。
tesseract安装很好,因为我可以独立使用它,对使它与弹性一起工作有帮助吗?
Apache Tika已启用tesseract。 因此,您可以使用Elasticsearch Ingest Attachment插件在Tika中使用活动OCR索引图像。
我只设法使用位于/org/apache/tika/parser/ocr/TesseractOCRConfig.properties
的类路径中的其他属性文件在Tika中启用OCR。 配置的是语言和tesseract位置:
language=deu+eng
tesseractPath=D:\programs\Tesseract-OCR
因此,基本上,您需要做的就是创建保存属性文件的目录结构,并将其添加到类路径中。
希望这可以帮助
康拉德
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.